KI-Podcast Projekt mit DAS PODCAST UFO

Ist es möglich, eine Folge im Stile eines etablierten Comedy-Podcasts mit Hilfe verschiedener KI-Tools zu generieren und ein Ergebnis zu erhalten, das möglichst authentisch klingt? Angetrieben von dieser Frage entstand das Podcast-Projekt, eine Kooperation des Unterhaltungspodcast DAS PODCAST UFO mit einem Team des RHET AI Center der Universität Tübingen.

Das Projekt

Das Aufkommen generativer KI-Tools stellt unsere Gesellschaft vor neue Herausforderungen: In unserem Umgang mit medialen Inhalten und Nachrichten sind wir durch die zunehmende Verbreitung von KI-generierten Inhalten stets mit der Frage nach der Echtheit von Bildern, Videos, Audiosequenzen und Stimmen, die uns online begegnen, und was mit diesen KI-generierten Inhalten bezweckt werden soll, konfrontiert. Wo simulieren KI-generierte Inhalte alternative Realitäten, die wir nicht sofort als solche wahrnehmen? Welchen Inhalten können wir noch vertrauen und wie bewegen wir uns sicher und informiert durch diese veränderte mediale Welt? Im Spannungsfeld dieser Fragestellungen und Herausforderungen fußt unser Projekt. Als Forschungszentrum für rhetorische Wissenschaftskommunikation zur Künstlichen Intelligenz sehen wir bei uns eine Verantwortung, im Austausch mit der Gesellschaft Antworten auf diese Fragen zu finden und Orientierung im Diskurs zu geben.

Mit dem Projekt sollen die Grenzen und Möglichkeiten kreativer KI-Generierung und co-kreativer Interaktion zwischen Menschen und KI-Tools ausgelotet und der Diskurs rund um den Einsatz generativer KI weiter angestoßen werden: Wo ist der Einsatz generativer KI-Tools sinnvoll und wo nicht? Wie können Konsument:innen KI-generierte Inhalte erkennen? Wie kann ein verantwortungsvoller Umgang mit generativer KI aussehen? Wie verändern sich Seh‑, Hör- und Lesegewohnheiten durch diese Technologien? All das sind Fragen, die wir uns als Gesellschaft stellen, öffentlich diskutieren und wissenschaftlich beforschen müssen.

Als RHET AI Center sehen wir in diesem Projekt eine einzigartige Möglichkeit, das Feld der Co-Kreativität und Wirkungsästhetik KI-generierter Medieninhalte in allen Produktions- und Distributionsstadien zu beforschen und auszutesten, wie tragfähig rhetorische Strategien im Umgang mit generativer KI sind. Gleichzeitig soll mit diesem Projekt auch öffentlichkeitswirksam Aufmerksamkeit für die gesellschaftlichen Dimensionen KI-generierter Inhalte geschaffen und diese offen diskutiert werden. Dabei ist uns besonders das Thema eines kompetenten und verantwortungsvollen Umgangs mit KI und KI-Tools, die sogenannte AI Literacy, ein großes Anliegen. Im Rahmen des Podcast-Projekts bietet sich die Chance, einer breiten, nicht-wissenschaftlich vorgeprägten Öffentlichkeit dieses Thema partizipativ näherzubringen. So haben die Hörer:innen von DAS PODCAST UFO am Montag, 16.03.2026 die Gelegenheit, die Forscherinnen im podcasteigenen Reddit bei einem Ask Me Anything Fragen zum Projekt und der Forschung zu stellen.

Wir freuen uns, mit dem Unterhaltungspodcast "DAS PODCAST UFO" und seinen beiden Hosts Stefan Titze und Florentin Will Projektpartner an unserer Seite zu haben, mit denen wir dieses gesellschaftliche Experiment durchführen und damit wichtige Pionierarbeit im deutschsprachigen KI-Diskurs leisten können.

Übersicht

Das Projekt
Ziel und Aufbau des Forschungsprojekts
Genutzte KI-Tools
Der Entstehungsprozess
Die Podcast-Folgen
Informationen zum Podcast
Wissenschaftliche Veröffentlichungen
Projektleitung und ‑kontakt:
Impressionen aus dem Projekt

Ziel und Aufbau des Forschungsprojekts

Das Ziel des Forschungsprojektes war es, eine möglichst authentisch klingende Podcastfolge des PODCAST UFOs mit Hilfe verschiedener KI-Tools zu erstellen. Eine weitere Podcastfolge, in der das Projekt aufgelöst, eingeordnet und erläutert wird war von Beginn an Teil des Versuchsaufbaus.

Der gesamte Prozess des Projektes ist dabei Grundlage für unsere Forschung. Welche Kriterien muss eine KI-generierte Folge erfüllen, damit sie authentisch klingt? Wie gelingt es, eine generative KI so zu trainieren und einen strategischen Prompting-Prozess so zu gestalten, dass die ausgegebenen Ergebnisse überzeugend und authentisch sind? Wie viel menschlichen Einfluss braucht dieser Prozess und an welchen Stellen ist er besonders notwendig? Wie wirkt eine solche Folge auf die Zuhörenden? An welchen Stellen bricht die Illusion? Wie reagieren die Zuhörenden auf die Folge, nachdem sie über deren KI-Generiertheit in Kenntnis gesetzt wurden und welchen Diskurs stößt das Projekt an? Dies sind einige der Fragen, die sich im Prozess der Arbeit am Projekt ergaben und denen wir uns in unserer Forschung widmen wollen.

Die konkrete Arbeit am Projekt startete im Januar 2025 und lief in einem kleinschrittigen Prozess bis zur Veröffentlichung der KI-generierten Folge am 11.03.2026 und der wissenschaftlichen Beobachtung des anschließenden Diskurses sowie der Veröffentlichung einer Auflösungsfolge mit Blick hinter die Kulissen am 12.03.2026.

Genutzte KI-Tools

Im Entstehungsprozess der Podcastfolge war es unser Ziel, so viel an Ideen, an Text und Audio-Material wie möglich von KI-Tools generieren zu lassen. Dafür haben wir die Arbeit in vier Teile aufgeteilt und für jeden dieser Arbeitsschritte ein geeignetes KI-Tool ausgewählt. Begonnen haben wir mit der Transkription von Audio-Inhalten des Podcast, um eine Datengrundlage an Texten zu haben, mit der wiederum ein weiteres KI-Tool trainiert wurde, mittels welchem wir den Folgentext generieren konnten. Abschließend haben wir mit einem dritten KI-Tool die Audioinhalte für die Folge generiert. Ergänzend dazu diente ein viertes KI-Tool der Erstellung eines, für den Podcast typischen Intros.

WhisperX (OpenAI)

- WhisperX ist ein KI-Tool zur automatischen Spracherkennung (ASR), das auf einem Neuronalen Netz basiert. Das Tool ermöglicht den Anwender:innen die schnelle und genaue Transkription großer Mengen Audiomaterial in Text.

- In unserem Projekt haben wir WhisperX zur Transkription von 50 Folgen des Podcast DAS PODCAST UFO verwendet. Die transkribierten Podcastfolgen benötigten wir als Datengrundlage für das KI-Tool, welches wir zur Textgenerierung eingesetzt haben.

ChatGPT (OpenAI)

- ChatGPT ist ein generatives KI-Tool von OpenAI, dass auf einem so genannten Large Language Model (LLM) basiert und mittels einer Transformer-Architektur und Reinforcement-Learning arbeitet. Es funktioniert als Chatbot und ist auf das Ausgeben von Antworten in natürlicher Sprache trainiert.

- Für die Generierung des Folgentexts haben wir ein so genanntes CustomGPT angelegt. Das ist ein spezifisches ChatGPT-Modell, welches zusätzlich zum grundlegenden Training und grundsätzlichen Arbeitsanweisung von ChatGPT um individuelle Prompts, Datenbanken und Vorgaben ergänzt wird und damit für spezielle Aufgaben trainiert werden kann.

In unserem Fall haben wir einen umfassenden Grundprompt für das CustomGPT angelegt, in dem klar vorgegeben war, welchen Zweck die generierten Textteile erfüllen und welche Daten dabei berücksichtigt werden sollen. Dazu speisten wir umfassende Daten als Wissensgrundlage in das CustomGPT ein. Zu den Daten gehörten neben Folgentranskripten auch Analysen zu Aufbau, Struktur, Stil, Sprache, etc. des Podcasts und zu Besonderheiten gesprochener Sprache (Satzabbrüche, Füllwörter, Wiederholungen und mehr).

In kleinschrittiger und langer Arbeit generierten wir so Stück für Stück den Text der Podcastfolge. Dabei wurden stets mehrere Feedbackschleifen innerhalb des Projektteams durchlaufen und die Rückmeldungen wiederum in den Generierungsprozess mit ChatGPT inkludiert.

Insgesamt arbeiteten wir über einen Zeitraum von ca. acht Monaten an der Generierung. Zum Einsatz kamen dabei die Modelle GPT 4.5–5.1. Um ein CustomGPT anlegen zu können, arbeiteten wir mit einer bezahlten Plus-Version von ChatGPT.

ElevenLabs

- ElevenLabs ist der Anbieter verschiedenster KI-Tools im Audio-Bereich und spezialisiert auf die Generierung authentisch klingender Stimmen. Das Tool fußt auf komplexen Deep Learning Modellen, die darauf trainiert sind zu erkennen, wie Menschen natürlicherweise sprechen und dies zu reproduzieren. Dafür verwendet ElevenLabs verschiedene Layer an Neuronalen Netzwerken, sowie Generative Adversarial Networks (GANs) und eine spezifische Transformer-Architektur.

- In unserem Projekt haben wir ElevenLabs als Tool für die Audiogenerierung der Podcastfolge eingesetzt. Dafür nutzen wir die Funktion der Instant Voice Clones, welche wir mit Audiomaterial der beiden Podcasthosts trainierten, mit dem Ziel authentisch klingende Stimmklone zu erhalten. Mit diesen Stimmklonen wiederum ließen wir in der Text-to-Speech-Funktion des Tools die generierten Textteile der Folge vertonen. Auch hier war ein umfassender Feedbackprozess, sowie kleinschrittige Arbeit in der Generierung notwendig, um mit dem Tool zufriedenstellende Ergebnisse zu erhalten.

Zum Einsatz kamen in unserem Projekt die V2, V3-alpha und V3 Versionen des Text-to-Speech-Tools von ElevenLabs. Wir nutzen dafür das Creator-Abo.

Udio

- Udio ist ein generatives KI-Tool, dass auf die Generierung von Musik trainiert ist. User:innen können sich über einen Prompt ein Musikstück generieren lassen und dabei etwa Genre, Storyline, Themen, Lyrics etc. festlegen.

- In unserem Projekt haben wir Udio dazu verwendet, ein Intro für den Podcast zu generieren. Traditionell schicken Hörer:innen selbstkreierte Intros and DAS PODCAST UFO, die dann für jede neue Folge verwendet werden. Um dem Anspruch des maximalen KI-Einsatzes gerecht zu werden, haben wir für die Generierung eines solchen Intros Udio eingesetzt.

Der Entstehungsprozess

Die Arbeit am Projekt und die Entstehung des Endprodukts "Experiment" verlief in enger Zusammenarbeit mit unseren Projektpartnern vom DAS PODCAST UFO in drei Phasen. Während jeder dieser Phasen haben wir unsere Ergebnisse stetig mit Stefan Titze und Florentin Will evaluiert und durch ihren Input angepasst.

Phase 1: Analyse des Podcast und Vorbereiten der Trainingsdaten

Unser Ziel war es, eine möglichst authentisch klingende Podcastfolge mit KI-Tools zu generieren. Dafür war es zunächst notwendig, den Podcast als Original zu analysieren und aufzuschlüsseln, wie genau eine KI-generierte Folge aufgebaut sein muss, um dieses Ziel erfüllen zu können.

In unserer Analyse betrachteten wir verschiedene Ebenen des Podcasts:
- Allgemeiner Aufbau, Themenauswahl, wiederkehrende Elemente, inhaltliche Anordnung der Themen
- Humorstruktur, comedic elements, Struktur der Themen-Bits
- Sprecherdynamik, Turn-Taking, Erzählweise
- Sprache und Form, Stilmittel, Spezifika der einzelnen Sprecher
- Stimme und Sprechweise, Modulation, Dialekt

Um die Analyse durchführen zu können, haben wir sehr viele Folgen von DAS PODCAST UFO gehört. Zusätzlich haben wir das KI-Tool WhisperX verwendet, um 50 Folgen des Podcasts zu transkribieren. Die Transkripte und Ergebnisse unserer Analyse bildeten die Trainingsgrundlage des CustomGPTs zur Textgenerierung.

Parallel haben wir mit Audiosequenzen aus dem Podcast das KI-Tools ElevenLabs trainiert und dort Stimmklone für die beiden Podcast-Hosts angelegt.

Der Analyse- und Trainingsprozess war mit Beginn der Generierungsarbeit jedoch nicht abgeschlossen. Vielmehr haben wir im Generierungsprozess immer wieder Stellen identifiziert, an denen wir die KI-Tools durch weiteres Analysematerial noch besser trainieren mussten und haben so beispielsweise die Analyse zur Humorstruktur erst im Laufe des Generierungsprozesses angestoßen.

Phase 2: Text- und Audiogenerierung der Podcastfolge

In der zweiten Phase des Projekts haben wir mit der Textgenerierung der Folge begonnen. Dazu legten wir ein CustomGPT mit einem expliziten Grundprompt an und entwickelten mit Hilfe des KI-Tools mögliche Themen für die Folge.

Auf den Themen aufbauend haben wir das KI-Tool Dialoge generieren lassen. Diese haben wir in einem intensiven Redigaturprozess innerhalb des Teams und mit unseren Projektpartnern kleinstteilig mit dem CustomGPT angepasst, bis ein zufriedenstellendes Ergebnis erreicht war. Der Prozess dauerte von April bis Dezember 2025 und nahm viele Stunden Arbeit in Anspruch. Gearbeitet haben wir jeweils an einzelnen Bits, also thematischen Abschnitten, die wir dann miteinander verbunden haben.

Parallel begannen wir ab Mai damit, einzelne Bits zu vertonen. Auch die Audiogenerierung verlief in kleinteiligen Schritten, bei denen zunächst die einzelnen Bit-Texte in Audioprojekten auf ElevenLabs angelegt und auf diesen Texten aufbauend die einzelnen Gesprächsturns nacheinander vertont wurden.

Hinzu kam die Anpassung von sprechgestalterischen Feinheiten wie dem nonverbalen Ausdruck von Emotionen (z. B. durch Veränderung der Stimmhöhe, Sprechgeschwindigkeit oder Pausensetzung), die das Programm teils aus der Wortwahl und Zeichensetzung der eingegebenen Gesprächsturns, teils aus in den Sprechtext eingebauten stilistischen Prompts, die in […] Klammern angegeben wurden, ausgelesen hat. Da die Ausgaben von ElevenLabs bezüglich einer stimmlichen "Baseline" und in der Audioqualität stark variierten (teils klangen die ausgegebenen Dateien z. B. verrauscht), wurden von jedem Sprechbeitrag mehrere Varianten generiert und jeweils tonal aufeinander passende Sprechbeiträge in Adobe Audition aneinander geschnitten. In einer finalen Überarbeitung schließlich wurden für Alltagsgespräche typische Gesprächspartikel (z. B. "hm", "ja", "okay", "mhm") generiert und an passenden Stellen in die Audition-Sessions eingefügt. Der Großteil der Arbeit an der Audiogenerierung fand von Januar bis März 2026 statt.

Phase 3: Evaluation und Vorbereitung der Veröffentlichung, Diskursbeobachtung

In der dritten Phase des Projekts beschäftigten wir uns mit der Vorbereitung der Veröffentlichung und Beobachtung des Diskurses. Die Planungen dazu liefen seit Beginn des Projektes stetig mit, denn von Anfang an haben wir das wissenschaftskommunikative Potenzial und große Forschungsinteresse in diesem Projekt gesehen.

Wir haben klar definiert, was unsere Motivation hinter dem Projekt ist, welche Fragen und welchen Diskurs wir damit anstoßen wollen. Wir haben den gängigen öffentlichen Diskurs zu KI verfolgt und definiert, wo wir Impulse setzten wollen.
Die Auflösungsfolge vom 12. März 2026 war für uns von Beginn an essenzieller Bestandteil des Projekts und Möglichkeit, öffentlichkeitswirksam genau diese Impulse zu setzen.

Den weiteren Diskurs um die Veröffentlichung der Folge, sowie die Auflösungsfolge verfolgen wir weiter und planen, diesen wissenschaftlich aufzubereiten. Darüber hinaus arbeiten wir an der gesamten wissenschaftlichen Aufbereitung des Projekts. Erste Veröffentlichungen sind bereits verfügbar, weitere sind in Planung.

Die Podcast-Folgen

KI-generierte Folge: Experiment
Auflösungsfolge: UFO506 KI-Experiment Auflösung

Informationen zum Podcast

DAS PODCAST UFO ist ein seit 2014 erscheinender Comedy-Podcast. Die beiden Hosts Stefan Titze und Florentin Will sprechen wöchentlich über Alltägliches und Absurdes, Popkultur, Medien und persönliche Beobachtungen. Typisch für den Podcast sind improvisierte Bits und der Hang zum Surrealen zwischen Humor und Kreativität. Weitere Informationen zum Podcast gibt es auf der Website und der "Pufopedia".

Stefan Titze ist Drehbuchautor, Produzent und Komiker. Er war Teil des Autor:innenenteams des Neo Magazin Royale und ist Mitentwickler sowie Autor der mehrfach ausgezeichneten Netflix-Serie How to Sell Drugs Online (Fast). Neben seiner Arbeit als Co-Host von DAS PODCAST UFO ist er in verschiedenen Fernseh- und Streamingproduktionen tätig.

Florentin Will ist Schauspieler, Komiker und Moderator. Er war für das Neo Magazin Royale vor und hinter der Kamera tätig und wirkte in zahlreichen Comedy- und Unterhaltungsformaten für Fernsehen und digitale Plattformen mit. Neben seiner Tätigkeit als Co-Host von DAS PODCAST UFO ist er als Moderator und Kreativer bei Rocket Beans TV aktiv.

Neben DAS PODCAST UFO stehen Florentin Will (l.) und Stefan Titze (r.) auch regelmäßig als Impro-Comedy-Künstler gemeinsam auf der Bühne. (CC: Joseph Strauch)

Wissenschaftliche Veröffentlichungen

Köhler, Anna; Volz, Carolin; Gottschling, Markus (2025): "Wie echt klingt KI?" In: Bieck, Julia; Stavesand, Meena: 10 Jahre HOOU. 10 Stimmen zum Podcasting. S. 59–69. Online verfügbar unter: Digital-HOOU-Podcasts-01-Druckbogen.pdf.

Köhler, Anna; Volz, Carolin (2026): "(Re-)Creating a comedy podcast using Generative AI." Vorgestellt beim Symposium Teaming Up with Generative AI: From Tool Use to Partnership. Deutsches Hygiene-Museum Dresden, Deutschland. 25.–26.03.2026.

Volz, Carolin (erwartet 2026): Simulation und Authentizität – Rhetorische Strategien im KI-generierten Podcast (AT). Masterarbeit im Studiengang Allgemeine Rhetorik.

Projektleitung und ‑kontakt:

Anna Köhler (01/25 – 03/26)

Projektverantwortliche und Co-Leitung

Audiogenerierung; Audioschnitt; Organisation; Recherche; Textgenerierung; Wissenschaftliche Begleitung

Kontakt: anna-marie.koehler@uni-tuebingen.de

Carolin Volz (01/25 – 03/26)

Co-Leitung

Organisation; Recherche; Redigatur; Textgenerierung; Wissenschaftliche Begleitung

Kontakt: carolin.volz@student.uni-tuebingen.de

Vladimir Jakimenko (02/25 – 05/25)

Audiogenerierung; Audioschnitt; Recherche

Alina Habermann (06/25 – 08/25)

Audioschnitt

Impressionen aus dem Projekt

Ein Dank zum Abschluss

Ein riesiger Dank geht an Stefan Titze und Florentin Will von DAS PODCAST UFO für die Möglichkeit, dieses Projekt gemeinsam umzusetzen und uns neben ihren Daten und Stimmen auch die Plattform zu bieten, in diesen wichtigen gesellschaftlichen Diskurs mit einzuwirken.

Darüber hinaus danken wir dem KI-Makerspace in Tübingen, die uns bei der Aufnahme der Auflösungsfolge mit Räumen und Technik unterstützt haben.