In der "Deus Ex Machina? – KI-Tools im Test"-Reihe stellen wir euch verschiedene Tools vor, die mithilfe von Künstlicher Intelligenz Schreib‑, Design- und Rechercheprozesse vereinfachen sollen. Mehr zur "Deus Ex Machina?"-Reihe gibt es hier.
Im Überblick
"Helping people become more creative", so lautet das Motto von Ideogram.ai, einem von vielen Online-Tools zur Bildgenerierung, die seit kurzer Zeit im Internet präsent sind. Aber was unterscheidet Ideogram.ai von Adobe Firefly, Stable Diffusion, Midjourney und anderen Anbietern ähnlicher Dienste?
Ideogram.ai ist die erste KI, die Bilder mit Text generieren kann. Der Vorteil: Statt manuell über ein bereits vorhandenes Bild einen Text zu legen, werden Bild und Text in einem Prozess generiert. Für jeden Prompt, den man in die Suchleiste eingibt, erhält man vier Bilder. Eines dieser vier generierten Bilder wird als Cover-Foto ausgewählt und allen User:innen auf der Startseite von Ideogram.ai angezeigt. Klickt man auf eines dieser Fotos, kann man sich auch die alternativen Versionen ansehen.
Die Website erlaubt es, dass man sich nicht nur die eigenen Bilder herunterladen kann, sondern auch die der anderen User:innen, sofern diese die kostenlose Version verwenden. Neben dem kostenfreien Zugang gibt es auch noch die Basisversion, diese kostet $7 USD/Monat, die Plusversion gibt es für $16 USD/Monat und die Proversion für $48 USD/Monat. Die Abonnements unterscheiden sich hauptsächlich in der Anzahl der verwendbaren Prompts pro Tag und der Qualität der heruntergeladenen Bilder, gemessen an der Pixelzahl.
Ideogram.ai bietet bei der Erstellung der Bilder verschiedene Formate und Stile an. Auch die Schriftart kann nach Wunsch variieren. Das macht es möglich, auch einen kurzen Prompt zu verfeinern und für die gewünschte stilistische Richtung passendere Ergebnisse zu erhalten. Für alle Experimentierfreudigen gibt es außerdem die Funktion Lucky style, mit welcher der Stil zufällig generiert wird.
Um einen Text schriftlich statt bildlich umgesetzt zu bekommen, muss er in Anführungszeichen gesetzt werden. Das ist auch in den für diesen Artikel verwendeten Beispielprompts zu sehen.
Die KI hinter der Anwendung
Ideogram.ai wurde von ehemaligen Mitarbeitenden von Google Brain, UC Berkeley und der Universität von Toronto, Mohammad Norouzi, Chitwan Saharia, William Chan und Jonathan Ho, mitbegründet. Mit einem Startkapital von 16,5 Millionen US-Dollar, das durch Seed-Funding zusammengetragen wurde, erschien das Tool im August 2023.
Ideogram.ai bietet ein umfangreiches Angebot an künstlerischen Stilen an – von lebensechten, cinematischen Bildern über Graffiti bis hin zum Comic, oder Anime-Stil. Die Ergebnisse können folgendermaßen aussehen:
Es darf dabei aber nicht vergessen werden, dass die KI noch sehr jung ist – und auch ausbaufähig. Die Prämisse, Bilder mit Text zu generieren, klingt vielversprechend. Trotzdem muss man bei der Anwendung beachten, dass sich die KI noch in ihren ersten Schritten befindet und einige Fehler machen kann. Insbesondere lange Prompts setzt das Tool nicht immer passend um, vor allem dann, wenn viel Text oder komplizierte Worte verwendet werden. Im Selbstversuch entstanden dabei einige lustige, aber leider auch 'nutzlose', Bilder. Gerade die Ergebnisse der Remix-Funktion, bei der man neue Bilder aufgrund bereits kreierter Bilder erstellen kann, sind oft nicht zufriedenstellend:
Kurz nach der Erstveröffentlichung hatte Ideogram.ai schon 1.1 Millionen Nutzer:innen und allein bis Anfang Oktober 2023 kreierte die KI bereits an die 80 Millionen Bilder. Teilweise müssen User:innen bis zu 30 Sekunden oder länger warten, bis die gewünschten Bilder erstellt werden, da der Server oft überlastet ist. Der Frust darüber zeigt sich in mehreren von Nutzer:innen angewendeten Prompts, die Bilder von Protestierenden kreieren, die Schilder wie "YOU NEED MORE SERVERS" hochhalten.
Seit Februar 2024 steht Ideogram 1.0 für alle Nutzer:innen kostenfrei zur Verfügung. Ein neues Feature dieser verbesserten Version ist der sogenannte Magic Prompt, der sich je nach Wunsch an- und ausschalten lässt. Der Magic Prompt ist generell eine verlängerte Version des eigenen Prompts, der während des Erstellens der 4‑Bilder-Reihe automatisch von der KI hinzugefügt wird.
Ursprünglicher Prompt: silly cat sticking out tongue
Magic Prompt: A playful and adorable cat, sticking out its tongue with a mischievous grin, is seen in the center of a vibrant and colorful poster. The cat is surrounded by a variety of objects, such as a rainbow, a sun, and a smiling moon, with a cheerful and energetic atmosphere. The overall design is eye-catching and perfect for a lighthearted and fun setting, poster | Model: Ideogram 1.0
Das rhetorische Potential des Tools
Ideogram.ai eignet sich besonders gut für Grafik-Designer:innen, Social Media Content Ersteller:innen oder generell für diejenigen, die zeitsparend Logos, Posts, Flyer o.Ä. erstellen wollen. Die Bedienung des Tools ist schnell erlernt und es ist nicht schwierig, sich einen Prompt auszudenken und einzutippen. Auch Studierende und sogar Schüler:innen können davon profitieren, sowie auch Privatpersonen, die Freude an KI-Bildgeneratoren haben. Allerdings ist die kommerzielle Nutzung verboten. Durch die Möglichkeit, aus verschiedenen Stilen auswählen zu können, ist auch das Ergebnis personalisierbar. Ein Prompt kann dadurch unterschiedliche Formen annehmen:
Verschiedenste Farben und Formen sind ebenfalls kein Problem für Ideogram.ai. Die auswählbaren Stile gibt es auch bei anderen KI-Bildgeneratoren, die endgültigen Designs unterscheiden sich jedoch im Vergleich in Art und Design. Im Normalfall entstehen keine Bilder, die Gesichter oder Körper unproportional darstellen (d.h. falsche Bildinformationen liefern, wie z.B. zu viele Finger an einer Hand). Dabei ist nun die Frage, inwieweit man die Remix-Funktion ausreizen kann. Für diesen Selbstversuch wird das obige mittige Bild der orangen Katze 1, das sogenannte „Parent“-Bild (Prompt: an orange cat saying "Hello", poster | Model: Ideogram 0.2) mehrfach durch die Remix-Funktion geschickt. Mit dem Remix gesellte sich ungeplant eine schwarze Katze 2 zur ersten dazu. Beim ersten Remix erschien statt einer orangen Katze 1 und einer schwarzen Katze 2 eine orange-schwarze Katze 3. Beim zweiten Remix änderte sich zusätzlich der Stil und das Bild verlor stark an Qualität. Außerdem wächst nun aus der orange-schwarzen Katze 4 eine weitere orange Katze 5. Beim dritten Remix wird der Text von "Hello" zu "Hello you" geändert. Die Ergebnisse sind hier zu sehen:
Auf der einen Seite ist es problematisch, dass die eingegebenen Texte meist nicht korrekt angezeigt werden. Ein weiteres Problem ist, dass zwar bisher kein Copyright auf den von der KI kreierten Bildern liegt, es aber dennoch verboten ist, sie kommerziell zu verwenden – da nämlich in Zukunft doch eventuell Copyright darauf liegen könnte. Das verringert den Nutzen der KI dementsprechend eindeutig, vor allem für Grafik-Designer:innen, die somit das Tool eher zur Inspirationsgewinnung als zur Erstellung fertiger Produkte nutzen können.
Kann Ideogram.ai also lediglich als Ideenfinder oder privater Spaß fungieren? Ist diese KI somit nur ein lustiges Hobby, ein nettes Dekostück für Referate an der Universität oder steckt noch mehr dahinter?
Auf der anderen Seite fördert das Experimentieren mit Sätzen und Wörtern (den Prompts) die eigene Kreativität. Durch den Zusatz der Schrift müssen Prompts im Vergleich zu anderen Bildgeneratoren noch einmal über- und umgedacht werden, um das gewünschte Ergebnis zu erhalten. Durch die zuvor erwähnte Remix-Funktion kommt Ideogram.ai zudem den User:innen entgegen, die den Dreh mit den richtigen Prompts noch nicht so heraushaben. Außerdem kann man sich jederzeit an den Prompts anderer User:innen orientieren, indem man sich auf der Startseite durch die Bilder klickt und sich die dazugehörigen Prompts anschaut. Bis Februar 2024 schlug die KI selbst keine Beispielprompts vor. Der (passive) Austausch in der Community hat somit eher die Weiterentwicklung der KI gefördert. Inzwischen helfen die zuvor bereits erwähnten Magic Prompts auf Wunsch. Sie machen es einfacher, kreative Ergebnisse zu erhalten, schränken aber auch die eigene Kreativität der User:innen ein. Wichtig ist es deshalb, dass man selbst darüber entscheiden kann, ob man die Magic Prompts an- oder ausschaltet.
Erwähnenswert ist hierbei noch, dass die KI bisher ausschließlich auf Englisch funktioniert, aber anderssprachige Texte auf ein Bild übertragen kann, da die KI die Worte zwar (richtig oder falsch) wiedergeben kann, sie aber offensichtlich nicht "versteht".
Einsatz in der Wissenschaftskommunikation
Konkrete Anwendungsmöglichkeiten in der Wissenschaftskommunikation sind nicht das Erstellen von Grafiken oder Beispielbildern, sondern das Erstellen von Bildern, die Sachverhalte zwar veranschaulichen können, aber kein Wahrheitsanspruch haben. Ideogram.ai kann verschiedene Interpretationen eines Querschnitts der Erde zur Verfügung stellen:
Bild | Prompt | Magic Prompt |
Beispielbild 1 | cross-section of the earth, scientifical | A captivating cross-sectional image of the Earth, depicting its various layers, including the crust, mantle, outer core, and inner core. The crust is shown with diverse landforms, such as mountains, deserts, and forests. The mantle, with its darker hue, has convection currents that drive tectonic plate movement. The outer core, composed of molten iron and nickel, is surrounded by the solid inner core. The Earth's core is an intense environment, with extreme pressure and temperature conditions. |
Beispielbild 2 | Cross-section of the earth, cinematic | / |
Beispielbild 3 | Cross-section of the earth | A stunning cross-section of the Earth, revealing its layers in intricate detail. The crust, mantle, and core are clearly visible, with the mantle being divided into the upper and lower mantle. The core consists of the dense inner core and the less dense outer core, surrounded by the Earth's crust. The image is color-coded, with the crust in shades of green and brown, the mantle in shades of red and orange, and the core in shades of yellow and gold. The Earth's magnetic field lines are depicted in blue, spiraling around the molten outer core. |
Gerade hierbei wird deutlich, dass die neue Funktion des Magic Prompts sehr hilfreich sein kann, wenn man selbst noch keine genaue Vorstellung von dem Endergebnis hat. Die Bilder sind qualitativ hochwertig, teilweise jedoch eher fantastisch-kreativ als seriös-wissenschaftlich. Je nachdem, in welchem Kontext und Umfeld man die Grafiken verwenden möchte, können sie also mehr oder weniger nützlich sein.
Grafiken, wie beispielsweise ein Kuchendiagramm, lassen sich nicht wirklich mit Ideogram.ai erstellen. Mit dem Prompt pie chart, 65% like cats, 25% like dogs, 10% like fish erhält man zwar ein Kuchendiagramm, allerdings nicht in der gewünschten Aufteilung:
Auch nach Umformulieren des Prompts zu pie chart with 65% cats, 25% dogs, 10% fish und Experimentieren mit und ohne Magic Prompt, erhält man nicht das gewollte Ergebnis:
Diagramme scheint Ideogram.ai dementsprechend noch nicht herstellen zu können. Zudem muss erneut darauf hingewiesen werden, dass die Bilder von Ideogram.ai nicht kommerziell verwendet werden dürfen. Die Bilder können also beispielsweise nicht von Zeitschriften, die Wissenschaftskommunikation betreiben, verwendet werden.
Fazit
Zusammenfassend kann festgehalten werden, dass Ideogram.ai sich durch seine Vielfältigkeit, Einfachheit und Zugänglichkeit auszeichnet. Mit etwas Experimentieren erhält man besondere, schöne Bildergebnisse im gewünschten Stil. Die eigenständige Verwendung der Prompts (ohne Magic Prompts) erfordert jedoch einiges an Übung und Geduld und man muss damit rechnen, am Ende nicht die gewünschten Ergebnisse zu erhalten. Die Magic Prompts vereinfachen zwar den Prozess, können aber auch irreführend sein und Ergebnisse erstellen, die mit der ursprünglichen Intention der User:innen wenig zu tun haben. Das Tool eignet sich dementsprechend besonders für diejenigen, die offener für diverse Ergebnisse sind und sich nichts Explizites als Endresultat vorstellen.
Die Hersteller:innen von Ideogram.ai sind die ersten, die die Initiative ergriffen haben, eine Text-Bild-KI zu entwickeln. Das macht Ideogram.ai unter den Bildgeneratoren (vorerst) einzigartig.