KI-Tools im Test: Gen-2 by Runway Research - RHET AI - Zentrum für rhetorische Wissenschaftskommunikationsforschung

KI-Tools im Test: Gen‑2 by Runway Research

In der "Deus Ex Machina? – KI-Tools im Test"-Reihe stellen wir euch verschiedene Tools vor, die mithilfe von Künstlicher Intelligenz Schreib‑, Design- und Rechercheprozesse vereinfachen sollen. Mehr zur "Deus Ex Machina?"-Reihe gibt es hier.

Inhaltsverzeichnis

Im Überblick
Die KI hinter der Anwendung
Das rhetorische Potenzial des Tools
Einsatz in der Wissenschaftskommunikation
Wrap-Up

Im Überblick

Vergangenen März veröffentlichte das New Yorker Unternehmen Runway die zweite Generation seines Online-Tools Runway Research. Ähnlich wie bei den Text-zu-Bild-Tools Midjourney und DALL‑E erzeugt Runway Research Generation 2 aus Texteingaben und Bildvorlagen neue Bilder und Videos.

Neben dem browserbasierten Video-Editor, der zumindest im Schnittbereich stark an Adobes Premier Cut oder das kostenlose Schnittprogramm DaVinci erinnert, gibt es auch nutzbare Vorlagen für audiovisuelle Clips und Präsentationen. Diese können mit Stockmaterial oder eigenen Aufnahmen personalisiert werden. Für die Nachbearbeitung von Videos in ihrer Helligkeit und Farbe bietet der Editor keine Funktionen, er eignet sich eher für das Anordnen und Schneiden fertiger Clips sowie das Zusammenbringen mit Text und Audio.

Ein Screenshot des Video-Editors, als Übersicht über die verschiedenen Funktionen. Neben der Vorschau in der Mitte sind die verschiedenen Funktionen angeordnet: Links die Basisfunktionen wie Upload, Texteingabe, Vorlagen und rechts clipspezifische Funktionen wie Transformieren, Zuschneiden oder vom Hintergrund freistellen. Die verschiedenen Spuren eines Videos sind im unteren Bereich angeordnet und enthalten in diesem Beispiel Vorlagen von einem Schreibtisch und einem Laptop. — Die Nutzungsoberfläche des browserbasierten Video-Editor erinnert stark an bereits bekannte Schnitt- und Designtools, unterscheidet sich allerdings in den Funktionen.

Funktionen, um die Clips weiter zu bearbeiten, bieten die verschiedenen AI Magic Tools, die sich in neuen Tabs öffnen lassen. Anhand dieser Funktionen können eigene Videos automatisch mit Untertiteln versehen, im Ton optimiert oder in der Farbe korrigiert werden. Außerdem lassen sich Objekte und Personen entfernen oder vom Hintergrund trennen.

Ein Screenshot zur Auflistung der verschiedenen KI-getriebenen Funktionen, den sogenannten AI Magic Tools, die mit ihrer Bezeichnung und einem für die Funktion aussagekräftigen Vorschaubild kurz beschrieben werden. — Übersicht über einige der KI-gestützten Funktionen von Runway Research zur Bild- und Videobearbeitung.

Alle bis hier genannte Funktionen sind nach Angabe einer E‑Mail-Adresse nutzbar. Im kostenlosen Abonnement ist die Anzahl an Gesamtsekunden für Bearbeitungen am Bewegtbild stark begrenzt und es gibt Einschränkungen in der Qualität beim Export sowie eine limitierte Anzahl an Generierungsversuchen. Aufstocken lässt sich das Tool durch Bezahlabonnements, die entweder 12 $ oder 28 $ im Monat kosten und qualitativ hochwertigere Ergebnisse ohne zeitliche Begrenzung der Exponate ermöglichen.

Ebenfalls kostenlos nutzbar und in Tradition zur ersten Generation des Tools steht die Funktion, mit einer trainierten Intelligenz Videos zu generieren. Mit einem Bild oder Text als Prompt lassen sich neue Videos erstellen und anhand bestehender Videos können ganz neue Szenen kreiert und visual effects eingebaut werden. Wer den diesjährigen siebenfachen Oscargewinner Everything Everywhere All at Once gesehen hat, erinnert sich vielleicht an die Szene mit den beiden Steinen, deren Bewegungen unter anderem mit diesem Tool animiert wurden. In einem Interview, das Runway auf seiner Website veröffentlichte, berichtet Evan Hadleck, einer der visual effect artists des Films, wie ihn das Tool bei der Produktion von Musikvideos und Werbespots unterstützt.

Die KI hinter der Anwendung

Neben diesem Interview veröffentlichte Runway nicht nur weitere Berichte über Filmschaffende, die ihr Tool nutzen, sondern verweist dort auch auf verschiedene Paper mit Informationen zur Programmierung und Entwicklung des Tools. Diese sind über die Website der Cornell University frei zugänglich. Jedoch geben die Dokumente zu Runway Generation 1 für Interessierte ohne Programmierkenntnisse nur wenig Aufschluss zur Funktionsweise.

Das Paper zur Generation 2 soll noch dieses Jahr veröffentlicht werden und die Entwicklung sowie das Training des Tools kommunizieren. In den sechs Monaten seit Veröffentlichung wurden jedoch noch keine derartigen Informationen publiziert und es finden sich keine Informationen zur Anwendung und ihrem Training. Auch ob die von den Nutzer:innen hochgeladenen Videos und Bilder genutzt werden, um Gen‑2 weiterzutrainieren und unter Umständen in Teilen den Arbeiten anderer Nutzer:innen auftauchen, ist nicht bisher nicht bekannt (Stand August 2023).

Das rhetorische Potenzial des Tools

Erklärfreundlicher hingegen sind die Tutorials, die zu den einzelnen Funktionen auf YouTube zu finden sind. Auf einem eigenen Kanal wird in mehreren Videos die Anwendung der Tools gezeigt und die "next-generation content creation with artificial intelligence", also die Erstellung von Inhalten der nächsten Generation durch künstliche Intelligenz präsentiert. Kombiniert wird das Motto dabei häufig mit dem Versprechen, kreatives Arbeiten zu unterstützen und Kosten für die Erstellung visueller Medien zu senken, da mit dem Tool ganze Filme erstellt werden können, ohne dass die meist kostspielige Aufnahme von Filmmaterial nötig ist.

Dies erfordert jedoch einiges an Übung und Geduld, da authentisch wirkende Ergebnisse nicht immer garantiert sind und von Ausgangsmaterial und Prompt abhängen. Darstellungen von nicht vorhandenen Personen in einem Video funktionieren weniger überzeugend, wie das Beispielvideo des Bibliotheksflurs zeigt. Mit der Ergänzung der Person verliert das Video an Realität (siehe Video 2). Für abstrakte Spielereien hingegen lohnt sich das Ausprobieren verschiedener Befehle und Einstellungen (siehe Video 3).

Video 1: Ausgangsvideo "Bibliotheksflur"

Video 2: Prompt "Ergänze eine Person"

Video 3: Abstraktion des Ausgangsvideos

Änderungen an einem Video durch ein Ausgangsbild funktionieren meist recht zuverlässig. Das Ändern eines blauen Himmels hin zu einem eindrücklichen Farbspektakel, wie im folgenden Beispiel, funktioniert in wenigen Klicks.

Screenshot des Programms mit dem Ausgangsvideo eines Schiffs in einer blauen Lagune und rechts die Eingabefläche mit einer Aufnahme eines Himmelspektakels und unten vier Vorschlagsvideos in der Vorschau zu sehen sind. — Das Ausgangsvideos eines Schiffs in einer blauen Lagune links und rechts das Eingabebild eines Himmelspektakels, aus denen die unteren vier Vorschläge generiert wurden.

Schließlich kann das Tool durch deskriptive Texteingabe auch bekannte "Looks" imitieren, die bestimmte Assoziationen beim Zielpublikum auslösen (sollen). So ergibt die Eingabe "Wes Anderson Style" farbintensive Vorschläge, die durchaus an die detailverliebte und architekturbetonende Handschrift des Regisseurs erinnern.

Vier Kacheln, die jeweils einen Ausschnitt aus einer hellen und sehr farbenfrohen Bibliothek zeigen. Die Kacheln sind an den Stil des Regisseurs Wes Anderson angelehnt in Farbauswahl (kräftige, warme Farben) und Ausrichtung (Anderson ist für seine Symmetrie, klare Linienführung und Einheitlichkeit bekannt). — Vier Vorschläge eines Bibliotheksflurs unter dem Stichwort "Wes Anderson Style".

Einsatz in der Wissenschaftskommunikation

Der Aufbau des Video-Editors ist einfach und intuitiv bedienbar. Er erlaubt grundlegende Bearbeitungen in Schnitt, Text und Audio. Die Schnittvorlagen bieten visuell ansprechende Designs, die sich einfach mit eigenen Texten und Videos füllen lassen. Dies kann vor allem für Schnittunerfahrene hilfreich sein, da diese leicht anzuwenden sind und zuverlässige Ergebnisse liefern. Hier liegt zudem das Potenzial des Tools, dass es auch Unerfahrene bei der Produktion audiovisueller Inhalte unterstützen kann. Und selbst wenn mit Gen‑2 vor allem Filmschaffende angesprochen werden sollen, kann es in der Wissenschaftskommunikation ebenfalls für die Visualisierung von komplexen Inhalten eingesetzt werden, zum Beispiel für das Erstellen von ansehnlichen Präsentationen oder dem Schneiden von kurzen Clips.

Schwierig wird es allerdings bei dem Versuch, angewendete Vorlagen weiter anzupassen oder einzelne Bearbeitungsschritte der KI zu verändern. Das gilt auch für weitere Funktionen, in denen die KI nach nur einem Klick ganze Bearbeitungsschritte übernimmt. Ob bei der Entfernung von Störgeräuschen im Ton oder der Farbkorrektur von Videos: Es gibt kein Protokoll, das die durch die KI getätigten Veränderungen anzeigt und somit auch keine Möglichkeit, die Bearbeitungsschritte des Programms genau nachzuvollziehen. Generierte Veränderungen lassen sich zudem nicht abschwächen, verstärken oder nur in Teilen anwenden. Es ist zwar möglich, die Bearbeitung zurückzusetzen und mit veränderten Parametern erneut zu generieren, allerdings ist dies aufwendig und kostet jedes Mal eine Generierung, die im Free-Account ohnehin begrenzt sind.

Wie viele Generierungen bis zum erwünschten Bild nötig sein können, zeigt sich im Selbstversuch mit dem blauen Schmetterling, der mit der Image-to-Image-Funktion bearbeitet wurde. Dabei sollte durch die Kombination von Bild und Prompt ein neues Bild nach Vorgabe entstehen.

Ein blauer Schmetterling sitzt im Vordergrund des Fotos auf einem schattigen Steinboden. — Aufnahme eines Schmetterlings, bei dem im Versuch der Hintergrund geändert werden soll.

Der Versuch, den Schmetterling per Prompt auf ein Pferd zu setzen, war nicht erfolgreich. Anstelle eines zweiten Tieres hat die KI eine Pferdeweide und eine Stallung in den Bildhintergrund generiert. Die Recolorierung des Schmetterlings funktionierte dafür gut – auch wenn diese im Prompt nicht gefragt war.

Screenshot von vier Generierungen mit jeweils einem Schmetterling vor verschiedenen Hintergründen. — Ergebnisse des Versuchs, den Schmetterling auf ein Pferd zu setzen.

Die "Infinite Image"-Funktion, bei der Bilder um einzelne Objekte durch textliche Beschreibung ergänzt werden, liefert oft überzeugende Ergebnisse. Zwar kommt es noch zu kleineren Logikfehlern wie falschen Schatten und zum Teil surrealen Zusammensetzungen, die meisten Ergebnisse sind jedoch, gerade im Vergleich zu den generierten Videos, nahezu glaubwürdig.

Eine Fotografie von zwei Gebäuden mit einer kleinen Treppe und Fenstern, bei der durch das Tool Blumentöpfe, ein Mops mit Ball, ein Fahrrad und eine Regenbogenflagge ergänzt wurden. — Die Tübinger Bursagasse, zumindest im Kern des Bildes. Denn von allen Seiten wurde durch Texteingabe einige Objekte hinzugefügt.

Was Teil des ursprünglichen Bildes ist, lässt sich hier noch recht gut feststellen, da die ergänzten Objekte Unstimmigkeiten aufweisen. Für realistischere Ergänzungen, zum Beispiel des Hundes, wäre eine Nachbearbeitung von Licht, Schatten, Farbe und Glanzlichtern hilfreich, diese sind aber im Moment mit dem Tool nicht möglich. Dafür können pro Prompt mehrere Bilder ausgegeben werden, aus denen man das beste Bild auswählen kann.

Durch die Vielzahl an unterschiedlichen Funktionen bietet das Tool die verschiedensten Einsatzmöglichkeiten in der Produktion von audiovisuellen Inhalten, wobei insbesondere das Erstellen von künstlichen Fotografien und Videos im Vordergrund steht. Die Funktionen zur Bildmanipulation ermöglichen ein schnelles Veranschaulichen von Ideen, da durch Text- oder Bildeingabe authentische Ergebnisse generiert werden. Gerade in der Kommunikation von wissenschaftlichen Inhalten ergeben sich so neue Möglichkeiten, um Inhalte zu visualisieren. Beispielsweise könnten Klimaforschende mithilfe des Tools auf die Konsequenzen im Zusammenhang mit dem Klimawandel aufmerksam machen, indem sie fotorealistische Bilder generieren, auf denen bereits jetzt die ökologischen Auswirkungen eines Temperaturanstiegs zu sehen sind. Besonders Social Media Beiträge oder Präsentationen können so durch ansprechende Visualisierungen ergänzt werden.

Wrap-Up

Auch wenn einige Ergebnisse noch ausbaufähig sind, bietet das Tool eine schnelle und einfache Möglichkeit, Gestaltungsideen auf neue Art und Weise zu visualisieren. Es kann Produktionsprozesse verkürzen und ermöglicht Bearbeitungen und Bildmanipulationen, ohne dass technische Vorkenntnisse nötig sind. Besonders interessant für den Einsatz in der Wissenschaftskommunikation könnte dabei das Visualisieren abstrakter oder künftiger Szenarien sein, wie beispielsweise den Auswirkungen des Klimawandels auf unser Ökosystem. Allerdings gelingen nicht alle Vorhaben auf Anhieb, weshalb das Arbeiten mit Gen‑2 von Runway Research viel Ausprobieren erfordert und gerade das Personalisieren und Anpassen der Ergebnisse etwas Geduld und Kreativität im Schreiben der Prompts erfordert. Die einfache Bedienung lädt genau dazu ein und die generierten Ergebnisse machen Spaß, auch wenn ein gutes Ergebnis nicht bei jeder Spielerei garantiert ist.