In der aktuellen Ausgabe der Zeitschrift für Interdisziplinäre Bildwissenschaft Image (37/2023) ist ein Artikel des RHET AI Centers über KI-gestützte Bildgeneratoren erschienen. In ihrem Beitrag Fuzzy Ingenuity: Creative Potentials and Mechanics of Fuzziness in Processes of Image Creation with AI-Based Text-to-Image Generators befassen sich die Autoren Dr. Erwin Feyersinger, Lukas Kohmann und Michael Pelzer mit den kreativen Potenzialen und Mechanismen der Fuzziness die bei der Erstellung von Bildern mit Hilfe von KI-basierten Text-zu-Bild-Generatoren auftritt. Es werden unterschiedliche theoretische Perspektiven diskutiert, um diese Mechanismen der Fuzziness greifbar zu machen.
Diese vier Bilder wurden mit Stable Diffusion und dem Titel des Artikels "Fuzzy Ingenuity: Creative Potentials and Mechanics of Fuzziness in Processes of Image Creation with AI-Based Text-to-Image Generators" als Promt erstellt.
Die Ausgabe der Zeitschrift Image ist im Rahmen des Workshops Dall‑E, Midjourney, Stable Diffusion: Responses from Media Studies toward a "New Paradigm" of Image Production entstanden und umfasst weitere Beiträge, die sich mit KI-Bildgeneratoren wie Dall‑E, Midjourney oder Stable Diffusion befassen.
This explorative paper focuses on fuzziness of meaning and visual representation in connection with text prompts, image results, and the mapping between them by discussing the question: How does the fuzziness inherent in artificial intelligence-based text-to-image generators such as DALL·E 2, Midjourney, or Stable Diffusion influence creative processes of image production – and how can we grasp its mechanics from a theoretical perspective? In addressing these questions, we explore three connected interdisciplinary approaches: (1) Text-to-image generators give new relevance to Hegel’s notion of language as ‘the imagination which creates signs’. They reinforce how language itself inevitably acts as a meaning-transforming system and extend the formative dimension of language with a technology-driven facet. (2) From the perspective of speech act theory, we discuss this explorative interaction with an algorithm as performative utterances. (3) In further examining the pragmatic dimension of this interaction, we discuss the creative potential arising from the visual feedback loops it includes. Following this thought, we show that the fuzzy variety of images which DALL·E 2 presents in response to one and the same text prompt contributes to a highly accelerated form of externalized visual thinking.