KI-Tools im Test: Gen‑2 by Runway Research

In der "Deus Ex Machi­na? – KI-Tools im Test"-Reihe stel­len wir euch ver­schie­de­ne Tools vor, die mit­hil­fe von Künst­li­cher Intel­li­genz Schreib‑, Design- und Recher­che­pro­zes­se ver­ein­fa­chen sol­len. Mehr zur "Deus Ex Machina?"-Reihe gibt es hier.

Im Überblick

Ver­gan­ge­nen März ver­öf­fent­lich­te das New Yor­ker Unter­neh­men Run­way die zwei­te Gene­ra­ti­on sei­nes Online-Tools Run­way Rese­arch. Ähn­lich wie bei den Text-zu-Bild-Tools Mid­jour­ney und DALL‑E erzeugt Run­way Rese­arch Gene­ra­ti­on 2 aus Text­ein­ga­ben und Bild­vor­la­gen neue Bil­der und Videos.

Neben dem brow­ser­ba­sier­ten Video-Edi­tor, der zumin­dest im Schnitt­be­reich stark an Ado­bes Pre­mier Cut oder das kos­ten­lo­se Schnitt­pro­gramm DaVin­ci erin­nert, gibt es auch nutz­ba­re Vor­la­gen für audio­vi­su­el­le Clips und Prä­sen­ta­tio­nen. Die­se kön­nen mit Stock­ma­te­ri­al oder eige­nen Auf­nah­men per­so­na­li­siert wer­den. Für die Nach­be­ar­bei­tung von Vide­os in ihrer Hel­lig­keit und Far­be bie­tet der Edi­tor kei­ne Funk­tio­nen, er eig­net sich eher für das Anord­nen und Schnei­den fer­ti­ger Clips sowie das Zusam­men­brin­gen mit Text und Audio.

Ein Screenshot des Video-Editors, als Übersicht über die verschiedenen Funktionen. Neben der Vorschau in der Mitte sind die verschiedenen Funktionen angeordnet: Links die Basisfunktionen wie Upload, Texteingabe, Vorlagen und rechts clipspezifische Funktionen wie Transformieren, Zuschneiden oder vom Hintergrund freistellen. Die verschiedenen Spuren eines Videos sind im unteren Bereich angeordnet und enthalten in diesem Beispiel Vorlagen von einem Schreibtisch und einem Laptop.
Die Nut­zungs­ober­flä­che des brow­ser­ba­sier­ten Video-Edi­tor erin­nert stark an bereits bekann­te Schnitt- und Design­tools, unter­schei­det sich aller­dings in den Funktionen.

Funk­tio­nen, um die Clips wei­ter zu bear­bei­ten, bie­ten die ver­schie­de­nen AI Magic Tools, die sich in neu­en Tabs öff­nen las­sen.  Anhand die­ser Funk­tio­nen kön­nen eige­ne Vide­os auto­ma­tisch mit Unter­ti­teln ver­se­hen, im Ton opti­miert oder in der Far­be kor­ri­giert wer­den. Außer­dem las­sen sich Objek­te und Per­so­nen ent­fer­nen oder vom Hin­ter­grund trennen.

Ein Screenshot zur Auflistung der verschiedenen KI-getriebenen Funktionen, den sogenannten AI Magic Tools, die mit ihrer Bezeichnung und einem für die Funktion aussagekräftigen Vorschaubild kurz beschrieben werden.
Über­sicht über eini­ge der KI-gestütz­ten Funk­tio­nen von Run­way Rese­arch zur Bild- und Videobearbeitung.

Alle bis hier genann­te Funk­tio­nen sind nach Anga­be einer E‑Mail-Adres­se nutz­bar. Im kos­ten­lo­sen Abon­ne­ment ist die Anzahl an Gesamt­se­kun­den für Bear­bei­tun­gen am Bewegt­bild stark begrenzt und es gibt Ein­schrän­kun­gen in der Qua­li­tät beim Export sowie eine limi­tier­te Anzahl an Gene­rie­rungs­ver­su­chen. Auf­sto­cken lässt sich das Tool durch Bezah­l­abon­ne­ments, die ent­we­der 12 $ oder 28 $ im Monat kos­ten und qua­li­ta­tiv hoch­wer­ti­ge­re Ergeb­nis­se ohne zeit­li­che Begren­zung der Expo­na­te ermöglichen.

Eben­falls kos­ten­los nutz­bar und in Tra­di­ti­on zur ers­ten Gene­ra­ti­on des Tools steht die Funk­ti­on, mit einer trai­nier­ten Intel­li­genz Vide­os zu gene­rie­ren. Mit einem Bild oder Text als Prompt las­sen sich neue Vide­os erstel­len und anhand bestehen­der Vide­os kön­nen ganz neue Sze­nen kre­iert und visu­al effects ein­ge­baut wer­den. Wer den dies­jäh­ri­gen sie­ben­fa­chen Oscar­ge­win­ner Ever­y­thing Ever­y­whe­re All at Once gese­hen hat, erin­nert sich viel­leicht an die Sze­ne mit den bei­den Stei­nen, deren Bewe­gun­gen unter ande­rem mit die­sem Tool ani­miert wur­den. In einem Inter­view, das Run­way auf sei­ner Web­site ver­öf­fent­lich­te, berich­tet Evan Had­leck, einer der visu­al effect artists des Films, wie ihn das Tool bei der Pro­duk­ti­on von Musik­vi­de­os und Wer­be­spots unterstützt.

Die KI hinter der Anwendung

Neben die­sem Inter­view ver­öf­fent­lich­te Run­way nicht nur wei­te­re Berich­te über Film­schaf­fen­de, die ihr Tool nut­zen, son­dern ver­weist dort auch auf ver­schie­de­ne Paper mit Infor­ma­tio­nen zur Pro­gram­mie­rung und Ent­wick­lung des Tools. Die­se sind über die Web­site der Cor­nell Uni­ver­si­ty frei zugäng­lich. Jedoch geben die Doku­men­te zu Run­way Gene­ra­ti­on 1 für Inter­es­sier­te ohne Pro­gram­mier­kennt­nis­se nur wenig Auf­schluss zur Funktionsweise.

Das Paper zur Gene­ra­ti­on 2 soll noch die­ses Jahr ver­öf­fent­licht wer­den und die Ent­wick­lung sowie das Trai­ning des Tools kom­mu­ni­zie­ren. In den sechs Mona­ten seit Ver­öf­fent­li­chung wur­den jedoch noch kei­ne der­ar­ti­gen Infor­ma­tio­nen publi­ziert und es fin­den sich kei­ne Infor­ma­tio­nen zur Anwen­dung und ihrem Trai­ning. Auch ob die von den Nutzer:innen hoch­ge­la­de­nen Vide­os und Bil­der genutzt wer­den, um Gen‑2 wei­ter­zu­trai­nie­ren und unter Umstän­den in Tei­len den Arbei­ten ande­rer Nutzer:innen auf­tau­chen, ist nicht bis­her nicht bekannt (Stand August 2023). 

Das rhetorische Potenzial des Tools

Erklär­freund­li­cher hin­ge­gen sind die Tuto­ri­als, die zu den ein­zel­nen Funk­tio­nen auf You­Tube zu fin­den sind. Auf einem eige­nen Kanal wird in meh­re­ren Vide­os die Anwen­dung der Tools gezeigt und die "next-gene­ra­ti­on con­tent crea­ti­on with arti­fi­ci­al intel­li­gence", also die Erstel­lung von Inhal­ten der nächs­ten Gene­ra­ti­on durch künst­li­che Intel­li­genz prä­sen­tiert. Kom­bi­niert wird das Mot­to dabei häu­fig mit dem Ver­spre­chen, krea­ti­ves Arbei­ten zu unter­stüt­zen und Kos­ten für die Erstel­lung visu­el­ler Medi­en zu sen­ken, da mit dem Tool gan­ze Fil­me erstellt wer­den kön­nen, ohne dass die meist kost­spie­li­ge Auf­nah­me von Film­ma­te­ri­al nötig ist. 

Dies erfor­dert jedoch eini­ges an Übung und Geduld, da authen­tisch wir­ken­de Ergeb­nis­se nicht immer garan­tiert sind und von Aus­gangs­ma­te­ri­al und Prompt abhän­gen. Dar­stel­lun­gen von nicht vor­han­de­nen Per­so­nen in einem Video funk­tio­nie­ren weni­ger über­zeu­gend, wie das Bei­spiel­vi­deo des Biblio­theks­flurs zeigt. Mit der Ergän­zung der Per­son ver­liert das Video an Rea­li­tät (sie­he Video 2). Für abs­trak­te Spie­le­rei­en hin­ge­gen lohnt sich das Aus­pro­bie­ren ver­schie­de­ner Befeh­le und Ein­stel­lun­gen (sie­he Video 3). 

Video 1: Aus­gangs­vi­deo "Biblio­theks­flur"

Video 2: Prompt "Ergän­ze eine Person"

Video 3: Abs­trak­ti­on des Ausgangsvideos

Ände­run­gen an einem Video durch ein Aus­gangs­bild funk­tio­nie­ren meist recht zuver­läs­sig. Das Ändern eines blau­en Him­mels hin zu einem ein­drück­li­chen Farb­spek­ta­kel, wie im fol­gen­den Bei­spiel, funk­tio­niert in weni­gen Klicks.

Screenshot des Programms mit dem Ausgangsvideo eines Schiffs in einer blauen Lagune und rechts die Eingabefläche mit einer Aufnahme eines Himmelspektakels und unten vier Vorschlagsvideos in der Vorschau zu sehen sind.
Das Aus­gangs­vi­de­os eines Schiffs in einer blau­en Lagu­ne links und rechts das Ein­ga­be­bild eines Him­mel­spek­ta­kels, aus denen die unte­ren vier Vor­schlä­ge gene­riert wurden.

Schließ­lich kann das Tool durch deskrip­ti­ve Text­ein­ga­be auch bekann­te "Looks" imi­tie­ren, die bestimm­te Asso­zia­tio­nen beim Ziel­pu­bli­kum aus­lö­sen (sol­len). So ergibt die Ein­ga­be "Wes Ander­son Style" farb­in­ten­si­ve Vor­schlä­ge, die durch­aus an die detail­ver­lieb­te und archi­tek­tur­be­to­nen­de Hand­schrift des Regis­seurs erinnern.

Vier Kacheln, die jeweils einen Ausschnitt aus einer hellen und sehr farbenfrohen Bibliothek zeigen. Die Kacheln sind an den Stil des Regisseurs Wes Anderson angelehnt in Farbauswahl (kräftige, warme Farben) und Ausrichtung (Anderson ist für seine Symmetrie, klare Linienführung und Einheitlichkeit bekannt).
Vier Vor­schlä­ge eines Biblio­theks­flurs unter dem Stich­wort "Wes Ander­son Style".

Einsatz in der Wissenschaftskommunikation

Der Auf­bau des Video-Edi­tors ist ein­fach und intui­tiv bedien­bar. Er erlaubt grund­le­gen­de Bear­bei­tun­gen in Schnitt, Text und Audio. Die Schnitt­vor­la­gen bie­ten visu­ell anspre­chen­de Designs, die sich ein­fach mit eige­nen Tex­ten und Vide­os fül­len las­sen. Dies kann vor allem für Schnit­tu­n­er­fah­re­ne hilf­reich sein, da die­se leicht anzu­wen­den sind und zuver­läs­si­ge Ergeb­nis­se lie­fern. Hier liegt zudem das Poten­zi­al des Tools, dass es auch Uner­fah­re­ne bei der Pro­duk­ti­on audio­vi­su­el­ler Inhal­te unter­stüt­zen kann. Und selbst wenn mit Gen‑2 vor allem Film­schaf­fen­de ange­spro­chen wer­den sol­len, kann es in der Wis­sen­schafts­kom­mu­ni­ka­ti­on eben­falls für die Visua­li­sie­rung von kom­ple­xen Inhal­ten ein­ge­setzt wer­den, zum Bei­spiel für das Erstel­len von ansehn­li­chen Prä­sen­ta­tio­nen oder dem Schnei­den von kur­zen Clips.

Schwie­rig wird es aller­dings bei dem Ver­such, ange­wen­de­te Vor­la­gen wei­ter anzu­pas­sen oder ein­zel­ne Bear­bei­tungs­schrit­te der KI zu ver­än­dern. Das gilt auch für wei­te­re Funk­tio­nen, in denen die KI nach nur einem Klick gan­ze Bear­bei­tungs­schrit­te über­nimmt. Ob bei der Ent­fer­nung von Stör­ge­räu­schen im Ton oder der Farb­kor­rek­tur von Vide­os: Es gibt kein Pro­to­koll, das die durch die KI getä­tig­ten Ver­än­de­run­gen anzeigt und somit auch kei­ne Mög­lich­keit, die Bear­bei­tungs­schrit­te des Pro­gramms genau nach­zu­voll­zie­hen. Gene­rier­te Ver­än­de­run­gen las­sen sich zudem nicht abschwä­chen, ver­stär­ken oder nur in Tei­len anwen­den. Es ist zwar mög­lich, die Bear­bei­tung zurück­zu­set­zen und mit ver­än­der­ten Para­me­tern erneut zu gene­rie­ren, aller­dings ist dies auf­wen­dig und kos­tet jedes Mal eine Gene­rie­rung, die im Free-Account ohne­hin begrenzt sind.

Wie vie­le Gene­rie­run­gen bis zum erwünsch­ten Bild nötig sein kön­nen, zeigt sich im Selbst­ver­such mit dem blau­en Schmet­ter­ling, der mit der Image-to-Image-Funk­ti­on bear­bei­tet wur­de. Dabei soll­te durch die Kom­bi­na­ti­on von Bild und Prompt ein neu­es Bild nach Vor­ga­be entstehen.

Ein blauer Schmetterling sitzt im Vordergrund des Fotos auf einem schattigen Steinboden.
Auf­nah­me eines Schmet­ter­lings, bei dem im Ver­such der Hin­ter­grund geän­dert wer­den soll.

Der Ver­such, den Schmet­ter­ling per Prompt auf ein Pferd zu set­zen, war nicht erfolg­reich. Anstel­le eines zwei­ten Tie­res hat die KI eine Pfer­de­wei­de und eine Stal­lung in den Bild­hin­ter­grund gene­riert. Die Reco­lo­rie­rung des Schmet­ter­lings funk­tio­nier­te dafür gut – auch wenn die­se im Prompt nicht gefragt war.

Screenshot von vier Generierungen mit jeweils einem Schmetterling vor verschiedenen Hintergründen.
Ergeb­nis­se des Ver­suchs, den Schmet­ter­ling auf ein Pferd zu setzen.

Die "Infi­ni­te Image"-Funktion, bei der Bil­der um ein­zel­ne Objek­te durch text­li­che Beschrei­bung ergänzt wer­den, lie­fert oft über­zeu­gen­de Ergeb­nis­se. Zwar kommt es noch zu klei­ne­ren Logik­feh­lern wie fal­schen Schat­ten und zum Teil sur­rea­len Zusam­men­set­zun­gen, die meis­ten Ergeb­nis­se sind jedoch, gera­de im Ver­gleich zu den gene­rier­ten Vide­os, nahe­zu glaubwürdig.

Eine Fotografie von zwei Gebäuden mit einer kleinen Treppe und Fenstern, bei der durch das Tool Blumentöpfe, ein Mops mit Ball, ein Fahrrad und eine Regenbogenflagge ergänzt wurden.
Die Tübin­ger Bur­sa­gas­se, zumin­dest im Kern des Bil­des. Denn von allen Sei­ten wur­de durch Text­ein­ga­be eini­ge Objek­te hinzugefügt. 

Was Teil des ursprüng­li­chen Bil­des ist, lässt sich hier noch recht gut fest­stel­len, da die ergänz­ten Objek­te Unstim­mig­kei­ten auf­wei­sen. Für rea­lis­ti­sche­re Ergän­zun­gen, zum Bei­spiel des Hun­des, wäre eine Nach­be­ar­bei­tung von Licht, Schat­ten, Far­be und Glanz­lich­tern hilf­reich, die­se sind aber im Moment mit dem Tool nicht mög­lich. Dafür kön­nen pro Prompt meh­re­re Bil­der aus­ge­ge­ben wer­den, aus denen man das bes­te Bild aus­wäh­len kann.

Durch die Viel­zahl an unter­schied­li­chen Funk­tio­nen bie­tet das Tool die ver­schie­dens­ten Ein­satz­mög­lich­kei­ten in der Pro­duk­ti­on von audio­vi­su­el­len Inhal­ten, wobei ins­be­son­de­re das Erstel­len von künst­li­chen Foto­gra­fien und Vide­os im Vor­der­grund steht. Die Funk­tio­nen zur Bild­ma­ni­pu­la­ti­on ermög­li­chen ein schnel­les Ver­an­schau­li­chen von Ideen, da durch Text- oder Bild­ein­ga­be authen­ti­sche Ergeb­nis­se gene­riert wer­den. Gera­de in der Kom­mu­ni­ka­ti­on von wis­sen­schaft­li­chen Inhal­ten erge­ben sich so neue Mög­lich­kei­ten, um Inhal­te zu visua­li­sie­ren. Bei­spiels­wei­se könn­ten Kli­ma­for­schen­de mit­hil­fe des Tools auf die Kon­se­quen­zen im Zusam­men­hang mit dem Kli­ma­wan­del auf­merk­sam machen, indem sie foto­rea­lis­ti­sche Bil­der gene­rie­ren, auf denen bereits jetzt die öko­lo­gi­schen Aus­wir­kun­gen eines Tem­pe­ra­tur­an­stiegs zu sehen sind. Beson­ders Social Media Bei­trä­ge oder Prä­sen­ta­tio­nen kön­nen so durch anspre­chen­de Visua­li­sie­run­gen ergänzt werden.

Wrap-Up

Auch wenn eini­ge Ergeb­nis­se noch aus­bau­fä­hig sind, bie­tet das Tool eine schnel­le und ein­fa­che Mög­lich­keit, Gestal­tungs­ideen auf neue Art und Wei­se zu visua­li­sie­ren. Es kann Pro­duk­ti­ons­pro­zes­se ver­kür­zen und ermög­licht Bear­bei­tun­gen und Bild­ma­ni­pu­la­tio­nen, ohne dass tech­ni­sche Vor­kennt­nis­se nötig sind. Beson­ders inter­es­sant für den Ein­satz in der Wis­sen­schafts­kom­mu­ni­ka­ti­on könn­te dabei das Visua­li­sie­ren abs­trak­ter oder künf­ti­ger Sze­na­ri­en sein, wie bei­spiels­wei­se den Aus­wir­kun­gen des Kli­ma­wan­dels auf unser Öko­sys­tem. Aller­dings gelin­gen nicht alle Vor­ha­ben auf Anhieb, wes­halb das Arbei­ten mit Gen‑2 von Run­way Rese­arch viel Aus­pro­bie­ren erfor­dert und gera­de das Per­so­na­li­sie­ren und Anpas­sen der Ergeb­nis­se etwas Geduld und Krea­ti­vi­tät im Schrei­ben der Prompts erfor­dert. Die ein­fa­che Bedie­nung lädt genau dazu ein und die gene­rier­ten Ergeb­nis­se machen Spaß, auch wenn ein gutes Ergeb­nis nicht bei jeder Spie­le­rei garan­tiert ist.