KI-Tools im Test: ElevenLabs

In der "Deus Ex Machi­na? – KI-Tools im Test"-Reihe stel­len wir euch ver­schie­de­ne Tools vor, die mit­hil­fe von Künst­li­cher Intel­li­genz Schreib‑, Design- und Recher­che­pro­zes­se ver­ein­fa­chen sol­len. Mehr zur "Deus Ex Machina?"-Reihe gibt es hier.

Im Überblick

Maschi­nell gene­rier­te Stim­men sind schon seit lan­gem Teil des tech­no­lo­gi­schen All­tags. Man kennt sie aus War­te­schlei­fen, Call­cen­tern, von Sprach­as­sis­ten­ten und hat sofort die­sen spe­zi­fi­schen, mecha­nisch klin­gen­den Ton im Ohr, mit dem typi­scher­wei­se ihre Aus­ga­ben ver­tont wer­den. Wenn es nun um KI-gene­rier­te Stim­men geht, so liegt im ers­ten Moment der Schluss nahe, dass die­se Stim­men ähn­lich klin­gen wür­den. Das Tech-Start­up Ele­ven­Labs hat es sich zum Ziel gemacht, ein Tool zur Erstell­tung KI-gene­rier­ter Stim­men zu bau­en, das mög­lichst rea­lis­tisch klin­gen­de Stim­men erstel­len soll, die von natür­li­chen Stim­men nicht zu unter­schei­den sind. Bei Ele­ven­Labs kön­nen User:innen Ange­bo­te für die unter­schied­lichs­ten Arten KI-gene­rier­ter Audi­os fin­den: Stimm­klo­ne, Syn­chro­ni­sa­tio­nen, Ver­to­nun­gen, Sound­ef­fek­te etc. Wir haben uns das Tool genau­er ange­schaut und es getestet.

Ele­ven­Labs wur­de 2022 von Ex Goog­le-Engi­neer Piotr Dab­kow­ski und Ex Palan­tir-Mit­ar­bei­ter Mati Sta­ni­szew­ski gegrün­det. Die Moti­va­ti­on dazu fan­den die bei­den Grün­der eige­nen Anga­ben nach in ihrer Jugend in Polen, in der sie immer wie­der schlecht syn­chro­ni­sier­te US-Fil­me sahen und sich über die Qua­li­tät der Syn­chro­ni­sa­ti­on ärger­ten. Mit Ele­ven­Labs wol­len sie Sprach­bar­rie­ren abbau­en und Mög­lich­kei­ten schaf­fen, Inhal­te welt­weit und über Sprach­gren­zen hin­weg ver­ständ­lich zu machen. In diver­sen Fun­ding-Run­den mit namen­haf­ten Investor:innen (Nat Fried­man, Dani­el Gross, etc.) sam­mel­te das Start­up eine beacht­li­che Men­ge an Kapi­tal und launch­te 2023 bereits die ers­ten Pro­duk­te. Dem Unter­neh­men nach zäh­len bei­spiels­wei­se das Tele­kom­mu­ni­ka­ti­ons­un­ter­neh­men cis­co, der Com­pu­ter- und Video­spiel­ent­wick­ler Epic Games, sowie das Time Maga­zi­ne mitt­ler­wei­le zu den Anwender:innen von ElevenLabs.

Doch was genau kann das Tool – bzw. ver­spricht es zu kön­nen? Ele­ven­Labs bie­tet sei­nen Anwender:innen ein brei­tes Spek­trum an KI-gene­rier­ten Audio­dienst­leis­tun­gen, sowie auch eine Bild- und Video­op­ti­on an. Herz­stück des Ange­bots ist die soge­nann­te Text-to-Speech-Anwen­dung, wel­che vom Unter­neh­men 2023 erst­mals ver­öf­fent­licht wur­de. Hier kön­nen die Nutzer:innen geschrie­be­ne Tex­te ein­ge­ben, die das Tool dann in gespro­che­ne Tex­te umwan­delt. In unse­rem Test haben wir bei­spiels­wei­se Aus­schnit­te eines Dia­lo­ges und das Skript eines Pod­cast ein­ge­ge­ben, wel­che uns das Tool dann als Audi­os aus­ge­ge­ben hat. Dabei ori­en­tie­ren sich die Audio­aus­ga­ben von Ele­ven­Labs an natür­li­cher Spra­che und klin­gen oft auch ent­spre­chend rea­li­täts­nah. Spe­zi­fi­sche Into­na­tio­nen, Sprech­pau­sen, emo­tio­na­le Modu­lie­run­gen, Atem­pau­sen und mehr, die gespro­che­ne Spra­che aus­zeich­nen und leben­dig machen, inklu­diert das Tool in sei­ne Ausgaben.

In unse­rem Pra­xis­test haben wir uns auf die Audio­an­ge­bo­te von Ele­ven­Labs fokus­siert und zunächst mit der V2-Ver­si­on gear­bei­tet. Im Som­mer 2025 ver­öf­fent­lich­te Ele­ven­Labs eine aktua­li­sier­te, drit­te Gene­ra­ti­on der Text-to-Spech Anwen­dung, zunächst als Alpha-Ver­si­on. Seit Febru­ar 2026 ist Ele­ven­Labs V3 ohne Alpha-Sta­tus für die Nut­zen­den zugäng­lich. In unse­rem Test konn­ten wir Ele­ven­Labs V2 und V3-Alpha inten­siv tes­ten. Die Beschrei­bung unse­rer Tes­t­er­leb­nis­se bezieht sich also jeweils auf die­se bei­den Versionen.

Im Test der V2-Ver­si­on konn­ten wir zunächst beob­ach­ten, dass ein län­ge­rer Ein­ga­be­text zu einer höhe­ren Feh­ler­an­fäl­lig­keit in den Audio­aus­ga­ben führ­te. Kür­ze­re Tex­te wur­den durch das Tool der Ein­ga­be getreu­er und mit weni­ger Hal­lu­zi­na­tio­nen aus­ge­ge­ben als län­ge­re Pas­sa­gen. Gera­de mit der Gene­rie­rung “unsau­be­rer” Ele­men­te der gespro­che­nen Spra­che, wie etwa dem Ver­schlu­cken von Sil­ben, gram­ma­ti­ka­lisch fal­schen Wort­endun­gen und mehr hat­te das Tool wie­der­holt Schwie­rig­kei­ten, plau­si­ble Ergeb­nis­se zu gene­rie­ren. Über län­ge­re Pas­sa­gen fiel zudem die sehr kor­rek­te und oft­mals über­be­ton­te Aus­spra­che auf, wäh­rend die anfangs noch stark aus­ge­präg­te Emo­tio­na­li­tät und Modu­lie­rung nach­ließ. Die­se “Über­mo­du­lie­rung” beein­fluss­te die Authen­ti­zi­tät der Audio­aus­ga­ben nega­tiv. Über län­ge­re Zeit­räu­me stell­te sich ein uncan­ny val­ley-Effekt ein, der auch im Zusam­men­hang mit KI-gene­rier­ten Inhal­ten zu beob­ach­ten ist.  Im Test der 2025 ver­öf­fent­lich­ten, aktua­li­sier­ten V3-Ver­si­on von Ele­ven­Labs konn­ten wir fest­stel­len, dass die Authen­ti­zi­tät der gene­rier­ten Stim­men auf­grund der bes­se­ren Steue­rungs­mög­lich­keit bezüg­lich emo­tio­na­ler Fär­bung der gene­rier­ten Aus­ga­ben noch­mals deut­lich höher war, jedoch auf­grund des Alpha-Sta­tus der Ver­si­on die Anfäl­lig­keit für Hal­lu­zi­na­tio­nen und Feh­ler eben­falls gestie­gen ist. Ver­füg­bar ist die­se Anwen­dung in 76 ver­schie­de­nen Sprachen.

Screenshot der Text-to-Speech-Funktion des AI-Tools ElevenLabs in der Anwendung
Die Text-to-Speech-Funk­ti­on des Tools in der Anwendung

Bei der Aus­wahl der Stim­men, mit wel­chen die ein­ge­ge­be­nen Tex­te ver­tont wer­den kön­nen, kön­nen die Nutzer:innen auf zwei Ange­bo­te zurück­grei­fen. Zum einen bie­tet Ele­ven­Labs eine soge­nann­te Voice Libra­ry an, in der die Nutzer:innen aus hun­der­ten, fer­tig trai­nier­ten Stim­men aus­wäh­len kön­nen. Die­se sind in gro­ßen Kate­go­rien wie Infor­ma­ti­ve & Edu­ca­tio­nal, Social Media, Cha­rac­ters & Ani­ma­ti­on, etc. sor­tiert, und dif­fe­ren­zie­ren sich dar­un­ter noch nach ver­schie­de­nen Stim­mun­gen, Inten­tio­nen und Cha­rak­te­ris­ti­ka. So kön­nen Nut­zen­de etwa eine moti­vie­rend-infor­ma­ti­ve Stim­me, eine gewitz­te Social-Media-Stim­me oder aber die Stim­me eines Comic-Böse­wichts aus­wäh­len, je nach­dem wel­cher Cha­rak­ter zu ihrem Text am bes­ten passt.

Screenshot der Voice Library des AI-Tools ElevenLabs in der Anwendung
Die Voice Libra­ry mit zahl­rei­chen fer­tig trai­nier­ten Stimmen
Optio­nen zur Stim­merstel­lung (Via Prompt, Voice Clo­nes oder Voice Remixing)

Zum ande­ren bie­tet Ele­ven­Labs aber auch Voice Clo­nes an. Nutzer:innen kön­nen einer­seits über spe­zi­fi­sche Ein­ga­ben zum Klang der Stim­me (ähn­lich den Cha­rak­te­ris­ti­ka, die sich auch in der Voice Libra­ry wie­der­fin­den) eine Stim­me gene­rie­ren las­sen. Oder aber eine spe­zi­fi­sche Stim­me – bei­spiels­wei­se die eige­ne – mit­tels KI nach­bau­en las­sen und anschlie­ßend für die Audio­aus­ga­be ver­wen­den. Mög­lich ist dies in Form von Instant- und Pro­fes­sio­nal Voice Clo­nes.

Die Instant Voice Clo­nes kön­nen bereits auf Basis kür­ze­rer Audio­da­tei­en (min. 10 Sekun­den bis max. ca. 7 Minu­ten Län­ge) einer Stim­me erstellt wer­den. Je bes­ser die Audio­qua­li­tät die­ser Datei­en, des­to bes­ser ist die Qua­li­tät des Klons. Der Instant Voice Clo­ne über­nimmt nun nicht nur Tona­li­tät, Stimm­la­ge und mehr, son­dern auch Merk­ma­le wie die Modu­la­ti­on oder Pausen­set­zung und wen­det sie auf neue Audio­aus­ga­ben an. Nutzer:innen haben dann noch die Mög­lich­keit, Eigen­schaf­ten des Stimm­klons nach­träg­lich zu bear­bei­ten und so bei­spiels­wei­se durch Anpas­sung der Sta­bi­li­tät und Aus­drucks­stär­ke einer Stim­me ein mög­lichst authen­ti­sches und rea­li­täts­na­hes Ergeb­nis zu erhal­ten. Jedoch haben die­se nach­träg­li­chen Anpas­sungs­mög­lich­kei­ten ihre Gren­zen und gehen mit­un­ter zu Las­ten ande­rer Stimm­ei­gen­schaf­ten, wie etwa der Höhe oder Dyna­mik der Stimme.

Für die Ver­to­nung unse­res Pod­cast-Texts haben wir zunächst zwei unter­schied­li­che Voice Clo­nes mit die­ser Metho­de erstellt und waren von der Qua­li­tät grund­sätz­lich über­zeugt. Auf­fäl­lig war jedoch, dass eine der bei­den geklon­ten Stim­men dem Ori­gi­nal ähn­li­cher war als die ande­re. Die Grund­sta­bi­li­tät und Aus­drucks­stär­ke einer mensch­li­chen Stim­me beein­flusst unse­rer Ver­mu­tung nach auch das Ergeb­nis des Voice Clo­nes. Je kon­stan­ter die Ori­gi­nal­stim­me ist, also je weni­ger mit dis­rup­ti­ven Ele­men­ten und gro­ßer Vari­anz gespro­chen wird, des­to ein­fa­cher scheint es zu sein, für die­se Stim­me einen authen­tisch klin­gen­den Stimm­klon zu ent­wi­ckeln. Schlech­te Ergeb­nis­se lie­fer­te der Voice Clo­ne in unse­rem Test bei sehr emo­tio­na­len Ele­men­ten mit hoher Devi­anz vom natür­li­chen Sprech­duk­tus, wie etwa Lachen oder Sin­gen. Hier klan­gen die Ergeb­nis­se – auch nach­dem Anpas­sun­gen vor­ge­nom­men und etwa expli­zit Lachen als Audio­quel­le hoch­ge­la­den wur­de – nicht authen­tisch. Die V3-Ver­si­on konn­te hier aber­mals bes­se­re Ergeb­nis­se lie­fern. Gesang und Lachen konn­ten hier authen­ti­scher aus­ge­ge­ben wer­den. Vor­aus­set­zung beim Gesang waren dafür jedoch neben dem expli­zi­ten Promp­ting von [sings] oder [singt] vor einem Text­ab­schnitt das Ein­fü­gen spe­zi­fi­scher “Gesangs­mar­ker” im Text, wie etwa „lala­la“.

Die Pro­fes­sio­nal Voice Clo­nes konn­ten wir nicht tes­ten. Hier sol­len die Anwender:innen 30–180 Minu­ten Audio­da­tei­en zur Ver­fü­gung stel­len und für das Ele­ven­Labs-Team veri­fi­zie­ren, dass die zu klo­nen­de Stim­me die eige­ne ist. Auf Grund­la­ge die­ser Daten erstellt das Tool in kur­zer Zeit den Voice Clo­ne, der dann zur Anwen­dung bereitsteht.

Missbrauch und Sicherheitskonzept

Die Mög­lich­keit, Stim­men zu klo­nen bie­tet stets auch die Gefahr des Miss­brauchs. So soll bei­spiels­wei­se die gefälsch­te Stim­me von Joe Biden, mit der Wähler:innen in Swing Sta­tes wäh­rend der US-Ame­ri­ka­ni­schen Prä­si­dent­schafts­wahl 2024 ange­ru­fen wur­den, mit Hil­fe von Ele­ven­Labs gene­riert wor­den sein.

Das Unter­neh­men reagier­te dar­auf mit einer Erwei­te­rung sei­nes Sicher­heits­kon­zepts. So wur­den bei­spiels­wei­se die Nut­zungs­richt­li­ni­en des Tools über­ar­bei­tet und die Nut­zung für Wahl­kampf­zwe­cke etwa ist expli­zit ver­bo­ten. Nutzer:innen der Voice-Clo­ning Tools wer­den fort­an über­prüft und beson­ders pro­mi­nen­te Stim­men für das Voice Clo­ning blo­ckiert.

Wei­te­re Sich­heits­maß­nah­men kön­nen hier nach­ge­le­sen wer­den: https://elevenlabs.io/safety.

Für 29 Spra­chen bie­tet Ele­ven­Labs auch einen Voice Chan­ger an. Hier kön­nen die Nut­zen­den selbst Audio­auf­nah­men ein­spre­chen oder hoch­la­den, wel­che das Tool dann in der Stim­me eines Stimm­klons oder einer Stim­me aus der Voice Libra­ry aus­gibt. In unse­rem Test zeig­te sich die­se Anwen­dung ins­be­son­de­re für sehr emo­tio­na­le Text­ab­schnit­te mit vie­len Modu­la­tio­nen und Empha­sen als nütz­lich, da die­se von der ein­ge­spro­che­nen Stim­me erhal­ten und ledig­lich in der Stim­me des Klons wie­der­ge­ge­ben wer­den. Jedoch über­nahm das Tool auch die Beto­nun­gen und Sprech­wei­se der ein­spre­chen­den Stim­me, wodurch die Aus­ga­ben zwar stimm­lich nach den Voice Clo­nes klan­gen, ande­re Ele­men­te des Spre­chens wie etwa Duk­tus und Pausen­set­zung aber wie­der­um dem der ein­spre­chen­den Men­schen ent­spra­chen, was das Gesamt­bild unstim­mig mach­te.  Ele­ven­Labs bie­tet noch wei­te­re Anwen­dun­gen an, die wir in unse­rem Test lei­der nicht aus­pro­bie­ren konn­ten und des­halb an die­ser Stel­le nur grob vor­stel­len. Dazu zählt das Dub­bing Stu­dio, mit dem Inhal­te in 29 Spra­chen über­setzt wer­den kön­nen. Dafür müs­sen Nutzer:innen ledig­lich eine Audio­da­tei hoch­la­den oder über einen Link auf einen Inhalt auf You­Tube, X, Tik­Tok, etc. ver­wei­sen und der Inhalt wird in die gewünsch­te Spra­che über­setzt. Sprecher:in, Neben­ge­räu­sche, Video­da­tei­en, etc. blei­ben erhal­ten, nur die Spra­che ist ange­passt. Laut eige­nen Anga­ben funk­tio­niert das Dub­bing auch mit ver­schie­de­nen Sprecher:innen und inner­halb von kür­zes­ter Zeit.

Im Stu­dio von Ele­ven­Labs sol­len die Nutzer:innen Hör­bü­cher, Pod­casts und Vide­os ein­fach pro­du­zie­ren kön­nen, indem das Tool dabei hilft, Video und Audio mit­ein­an­der zu ver­bin­den, pas­sen­de Sprecher:innen zuzu­tei­len und ggf. not­we­ni­ge Sound­ef­fek­te oder Unter­ti­tel hin­zu­zu­fü­gen. Auch wenn Nutzer:innen nur auf der Suche nach Sound­ef­fek­ten sind, bie­tet Ele­ven­Labs mit sei­ner Text-to-Sound-Effects-Funk­ti­on eine Mög­lich­keit. Hier kön­nen auf Basis von Text­prompts, wie etwa „Sanf­tes Wel­len­rau­schen mit Möwen­ge­schrei und einem Schiffs­horn im Hin­ter­grund“, Sound­ef­fek­te aus­ge­ge­ben und in Audio­pro­jek­te inte­griert wer­den. Ähn­lich wie bei der Voice Libra­ry bie­tet Ele­ven­Labs sei­nen Nutzer:innen auch bereits eine Samm­lung vor­ge­fer­tig­ter Sound­ef­fek­te unter­schied­lichs­ter Kate­go­rien an.

Dane­ben kön­nen Anwender:innen über die Speech-to-Text-Funk­ti­on des Tools auch Tran­skrip­tio­nen mit Ele­ven­Labs vor­neh­men und so Pod­casts, Inter­views, etc. in Tex­te umwan­deln. Das ist in 99 ver­schie­de­nen Spra­chen möglich.

Mit sei­ner Agents-Platt­form hält Ele­ven­Labs ein Ange­bot für Unter­neh­men und Anwender:innen bereit, die auf der Suche nach KI-basier­ten Lösun­gen für den Kun­den­sup­port sind. Auf der Agents-Platt­form kön­nen eige­ne KI-Agen­ten erstellt und für den Ein­satz im Kun­den­sup­port oder ande­re Anwen­dungs­be­rei­che trai­niert werden.

Zur Nut­zung des Tools reicht eine Anmel­dung via E‑Mail. Dann bie­ten sich beschränk­te Mög­lich­kei­ten der kos­ten­frei­en Nut­zung des Tools. Grö­ße­ren Spiel­raum haben Anwender:innen mit einem der ange­bo­te­nen Abo-Model­le, die von fünf Dol­lar pro Monat bis hin zu indi­vi­du­el­len Prei­sen für Unter­neh­men ran­gie­ren. Je nach Modell ste­hen den Nutzer:innen mehr Tokens zur Ver­fü­gung, also mehr Daten­ka­pa­zi­tä­ten, eben­so sind man­che der Ange­bo­te erst ab spe­zi­fi­schen Abos inklusive.

Wie gut die Ergeb­nis­se von Ele­ven­Labs sind, vari­iert dar­über hin­aus von Spra­che zu Spra­che. Für häu­fi­ger gespro­che­ne Spra­chen, wie Eng­lisch, Deutsch oder Spa­nisch klin­gen die Aus­ga­ben bes­ser als für sel­te­ner gespro­che­ne Spra­chen, was ver­mut­lich an den Trai­nings­da­ten liegt, mit denen das Tool trai­niert wur­de und die in ihrer Häu­fig­keit vari­ie­ren, je nach­dem wie vie­le Sprecher:innen die­ser Spra­che es welt­weit gibt.

Die KI hinter der Anwendung

Wie bei den meis­ten KI-Tools ist auch bei Ele­ven­Labs eine genaue Beschrei­bung der zugrun­de­lie­gen­den KI-Tech­no­lo­gie nicht mög­lich. Ele­ven­Labs hält die Anga­ben zu ihrem KI-Sys­tem sehr vage. Was mit Sicher­heit gesagt wer­den kann ist, dass Ele­ven­Labs mit eige­nen, kom­ple­xen Deep-Lear­ning-Model­len arbei­tet. Die­se sind dar­auf trai­niert zu erken­nen, wie Men­schen natür­li­cher­wei­se spre­chen und dies zu repro­du­zie­ren. Dabei wer­den Merk­ma­le wie der Kon­text einer Aus­sa­ge bei­spiels­wei­se mit der Tona­li­tät, Emo­tio­na­li­tät und Laut­stär­ke der gespro­che­nen Sequenz in Ver­bin­dung gebracht, um indi­vi­du­el­le Mus­ter in Beto­nung, Sprach­me­lo­die, Sprach­fluss und mehr zu erken­nen und sie dann maschi­nell gene­rie­ren zu kön­nen. Dafür ver­wen­det Ele­ven­Labs ver­schie­de­ne Lay­er an Neu­ro­na­len Netz­wer­ken, sowie Gene­ra­ti­ve Adver­sa­ri­al Net­works (GANs) und eine spe­zi­fi­sche Transformer-Architektur.

Das rhetorische Potenzial des Tools

Ele­ven­Labs ist auf gespro­che­ne Spra­che spe­zia­li­siert, wes­halb aus rhe­to­ri­scher Per­spek­ti­ve betrach­tet die Anwen­dungs­mög­lich­kei­ten pri­mär in den Bereich der so genann­ten actio, also des prak­ti­schen Rede­auf­tritts oder anders gespro­chen, des rhe­to­risch-kom­mu­ni­ka­ti­ven Aktes in der Pra­xis, fal­len. Ele­ven­Labs hat das Poten­zi­al, die Pra­xis des kom­mu­ni­ka­ti­ven Aktes zu erleich­tern oder in bestimm­ten Fäl­len erst zu ermöglichen.

Eine Erleich­te­rung kann dabei etwa Zeit­er­spar­nis sein. Statt bei­spiels­wei­se einen Pod­cast oder ein Video selbst ein­zu­spre­chen, kann mit Ele­ven­Labs die­ses Kom­mu­ni­kat gene­riert wer­den. Dabei kann außer­dem eine pas­sen­de Stim­me stra­te­gisch aus­ge­wählt wer­den, um eine spe­zi­fi­sche, inten­dier­te Wir­kung zu errei­chen. Außer­dem kön­nen durch die Mehr­spra­chig­keit und Dub­bing-Funk­ti­on des Tools auch Ziel­grup­pen und sprach­li­che Räu­me erschlos­sen wer­den, die eigent­lich ver­schlos­sen sind. Denn Über­zeu­gungs­ar­beit läuft eini­gen rhe­to­ri­schen Theoretiker:innen nach, wie bei­spiels­wei­se Ken­neth Bur­ke, über Iden­ti­fi­ka­ti­on ab. Erreicht eine Per­son also ein Text in ihrer Mut­ter­spra­che statt bei­spiels­wei­se auf Eng­lisch, so liegt das iden­ti­fi­ka­to­ri­sche Poten­zi­al und damit auch das Über­zeu­gungs­po­ten­zi­al schon ein­mal näher. Jedoch kann Ele­ven­Labs auf tex­tu­el­ler Ebe­ne kei­ne Ver­än­de­run­gen vor­neh­men und so etwa For­mu­lie­run­gen, Begrif­fe oder Humor nicht auf spe­zi­fi­sche Sprach- und Kul­tur­räu­me anpas­sen, was das per­sua­si­ve Poten­zi­al noch­mals erhö­hen wür­de. Rhe­to­risch gese­hen kann Ele­ven­Labs neue media­le Räu­me eröff­nen und die Anwender:innen so befä­hi­gen, ihre Inhal­te wei­ter zu dis­tri­bu­ie­ren – zum Bei­spiel von einem geschrie­be­nen Text in einen Pod­cast. Dazu las­sen sich auch mul­ti­mo­da­le Effek­te durch das Tool leich­ter erstel­len. Jedoch müs­sen auch hier medi­en­spe­zi­fi­sche Anfor­de­run­gen und Ver­än­de­run­gen durch die Anwender:innen bedacht wer­den, um bei­spiels­wei­se ein Video für Tik­Tok pas­send zu gestalten.

Anwendung in der Wissenschaftskommunikation

Dar­an anschlie­ßend lässt sich für die Anwen­dung in der Wis­sen­schafts­kom­mu­ni­ka­ti­on ein ähn­li­ches Bild zeich­nen: Ele­ven­Labs kann dabei hel­fen, Inhal­te auf­zu­be­rei­ten, um sie an ein grö­ße­res und diver­se­res Publi­kum zu dis­tri­bu­ie­ren. Sprach­räu­me stel­len so kei­ne schwer über­wind­ba­ren Gren­zen mehr da. Ins­be­son­de­re für Mit­glie­der einer klei­ne­ren Sprach­com­mu­ni­ty kann das die Mög­lich­keit bedeu­ten, akti­ver in den wis­sen­schaft­li­chen Dis­kurs ein­zu­tre­ten und ihn mitzuprägen.

Jedoch muss immer mit der Anfäl­lig­keit des Sys­tems für Feh­ler, Hal­lu­zi­na­tio­nen und mehr gerech­net wer­den. Wird ein Text in eine Spra­che über­setzt, derer die Anwender:innen selbst nicht mäch­tig sind, kön­nen die­se das aus­ge­ge­be­ne Ergeb­nis nicht gegen­prü­fen. Dadurch muss mit der Mög­lich­keit gerech­net wer­den, dass Infor­ma­tio­nen falsch wie­der­ge­ge­ben wer­den, was im Fal­le von Wis­sen­schafts­kom­mu­ni­ka­ti­on mit­un­ter schwer­wie­gen­de Fol­gen haben kann. Da Ele­ven­Labs gera­de für Spra­chen, die welt­weit sel­te­ner gespro­chen wer­den, auch feh­ler­haf­te­re Ergeb­nis­se gene­riert, muss die­ses Risi­ko von Kommunikator:innen sorg­fäl­tig abge­wo­gen werden.

Mit Ele­ven­Labs müss­ten Wissenschaftskommunikator:innen ihre Inhal­te nicht mehr selbst ein­spre­chen und könn­ten Auf­ga­ben wie Schnitt, Zusam­men­füh­ren von Audio und Video, Unter­ti­tel­er­stel­lung, etc. mit Unter­stüt­zung des Tools ein­fa­cher und schnel­ler erle­di­gen. Dadurch ergibt sich eine Zeit­er­spar­nis, die bei­spiels­wei­se für eine noch tie­fer­ge­hen­de Recher­che ver­wen­det wer­den kann. Die Unter­stüt­zung des Tools könn­te wis­sen­schafts­kom­mu­ni­ka­tiv täti­gen Anwender:innen aber auch ermög­li­chen, schnel­ler auf öffent­li­che Bedürf­nis­se nach Wis­sen­schafts­kom­mu­ni­ka­ti­on im Dis­kurs zu reagie­ren und damit der Aus­brei­tung von etwa Fehl­in­for­ma­tio­nen, Angst oder ähn­li­chen dis­kur­si­ven Phä­no­me­nen zeit­nah entgegenwirken.

Wrap Up

Mit Ele­ven­Labs bekom­men Anwender:innen ein vie­sei­ti­ges Tool, das vie­le Bedar­fe der KI-gene­rier­ten Sound- und Stimm­pro­duk­ti­on abdeckt. Die Pro­duk­te des Unter­neh­mens kön­nen dabei hel­fen, Audio­pro­duk­ti­on zu erleich­tern und Sprach­gren­zen zu über­win­den. Jedoch ist das Tool nicht frei von Feh­ler­an­fäl­lig­keit und lässt mit­un­ter an Authen­ti­zi­tät zu wün­schen übrig. Auch bei der Über­set­zung in weni­ger ver­brei­te­te Spra­chen stellt die Feh­ler­an­fäl­lig­keit des Tools ein Pro­blem dar. Zudem bleibt das Risi­ko, dass Stim­men als bio­me­tri­sche Daten leich­ter dem Miss­brauch aus­ge­setzt sind. Hier fehlt es ins­ge­samt noch an Reglementierungen.