KI-Tools im Test: Consensus

In der "Deus Ex Machina? – KI-Tools im Test"-Reihe stellen wir euch verschiedene Tools vor, die mithilfe von Künstlicher Intelligenz Schreib‑, Design- und Rechercheprozesse vereinfachen sollen. Mehr zur "Deus Ex Machina?"-Reihe gibt es hier.

Inhaltsverzeichnis

Im Überblick
Die KI hinter der Anwendung
Das rhetorische Potenzial des Tools
Einsatz in der Wissenschaftskommunikation
Wrap Up

Im Überblick

Es klingt wie der Traum vieler Studierender und Wissenschaftler:innen: Einfach eine Frage eintippen und innerhalb von Sekunden ausgegeben bekommen, wie die wissenschaftliche Forschung sie beantworten würde, ganz ohne sich selbst durch ellenlange, hochkomplexe Paper durcharbeiten zu müssen. Doch genau dieser Wunschtraum scheint Wirklichkeit geworden zu sein – zumindest, wenn man den Entwickler:innen des KI-Tools Consensus Glauben schenken möchte. Consensus gibt nämlich an, genau das zu sein: Eine KI-basierte Suchmaschine, die das akademische Wissen der Welt seinen Nutzer:innen zugänglicher macht.

Die Theorie hinter dem Tool ist simpel: Man tippt – wie in anderen Suchmaschinen auch – eine Frage ein und erhält Antworten darauf in natürlicher Sprache. Diese sind aber nicht aus beliebigen Quellen, wie etwa den meistgeklickten Webseiten zu einem Thema, generiert, sondern nur aus dem Besten, was die Wissenschaft zurzeit an Antworten zu bieten hat. Über 80 verschiedene Wissenschaftsgebiete soll Consensus nach eigenen Angaben abdecken.

Grundlage für die generierten Ergebnisse ist die Semantic Scholar Database, in der sich über 200 Millionen wissenschaftliche Paper – Studien sowie Theorietexte – finden lassen. Darüber hinaus – so Consensus – wird die Base stetig erweitert. Dank dieser Grundlage und den eigenen LLMs und Suchtechnologien soll Consensus seinen Nutzer:innen – anders als etwa ChatGPT – nicht die wahrscheinlichste Antwort ausgeben, sondern die wissenschaftlich korrekteste. Dargestellt werden die Antworten in natürlicher Sprache und jeweils auf Grundlage spezifischer Paper, die auch eingesehen werden können und aus denen direkt Zitate angezeigt werden. Pro Frage werden die 20 am besten geeigneten Paper genutzt.

Soweit das Grundprinzip des Tools. Daneben lässt sich die Suche noch durch zahlreiche Add Ons vereinfachen und verfeinern. Consensus bietet beispielsweise eine Zusammenfassung der zehn besten Paper an, die wiederum eine Antwort auf die gestellte Frage liefern. Bei Fragen, die klare ja/nein-Antworten zulassen, kann zudem das so genannte Consensus Meter genutzt werden, mit dem schnell sichtbar wird, ob wissenschaftlicher Konsens zu einem Thema besteht oder es eher umstritten ist. Der Copilot von Consensus schlüsselt die gestellte Frage nochmals in einzelne Kernelemente bzw. Kernthemen auf und beantwortet diese – versehen mit Quellenangaben – auf Grundlage der verwendeten Paper.

Screenshot des Consensus Meters und der Zusammenfassung — Zusammenfassung und Consensus Meter

Consensus bietet auch einen sogenannten Study Snapshot an. Damit können zentrale Elemente des Studiendesigns, wie etwa die Methoden, Stichprobengröße, untersuchte Gruppe etc. auf einen Blick eingesehen werden, wodurch schnelle Rückschlüsse auf die Aussagekraft der Studie möglich sind. In unserem Test war der Study Snapshot jedoch nur bei ca. der Hälfte der aufgegebenen Ergebnisse mit Informationen versehen. Beim Rest fehlten Angaben.

Verfeinern kann man die Suche mit Consensus auch durch spezifische Filter, mit denen nur ausgewählte Paper von dem Programm ausgegeben werden. Gefiltert werden kann beispielsweise nach Stichprobengröße, Methodologie, Open-Access-Publikationen, Studiendesign und mehr. Consensus versieht die ausgegebenen Antworten auch noch mit eigenen Qualitätsindikatoren, womit ein Fokus auf die besten Paper möglich ist. So werden etwa die Anzahl der Zitationen, die Qualität des Journals, in dem veröffentlicht wurde oder der Studientyp bewertet.

Durch diese Funktionsweisen wird bereits deutlich, dass Consensus vor allem einen Fokus auf Naturwissenschaft und naturwissenschaftliche Forschung legt und entsprechend an dieses Wissenschaftssystem angepasst ist. Zwar gibt das Unternehmen an, auch nicht-naturwissenschaftliche Fächer einzubeziehen und in unserem Test erhielten wir auch Antworten auf geisteswissenschaftliche Fragestellungen. Es lässt sich aber feststellen, dass das Tool an seine Grenzen kommt, je weniger empirisch eine Wissenschaft arbeitet. Consensus ist auf präzise formulierte Antworten trainiert, die in geisteswissenschaftlicher Forschung selten gegeben werden können. Für kleinere Forschungsgebiete, wie etwa das der Rhetorik, sind die Ergebnisse noch weniger aussagekräftig. Hier zeigen sich die Lücken in der Datenbank. Gleiches gilt für Fächer, die nicht primär inenglischer Sprache publizieren, wie etwa die Nationalphilologien.

Consensus ist nach Anmeldung über das Google Konto oder mittels Emailadresse kostenlos nutzbar, jedoch sind die vertieften Suchmöglichkeiten stark limitiert und es stehen Nutzer:innen nur eine begrenzte Anzahl an Fragen, die mit Consensus Meter, Zusammenfassung und Copilot beantwortet werden, zur Verfügung. Wer dauerhaft auf den vollen Umfang zugreifen möchte, muss ein Abonnement abschließen. Gegründet wurde das Unternehmen 2021 von Christian Salem und Eric Olson, beide Alumni der Northwestern University in Illinois. Dort – so die Angaben der Gründer – ist auch die Idee zu Consensus entstanden: KI zu nutzen, um Wissenschaft für jedermann leichter zugänglich zu machen. Ende 2022, kurz vor dem Release von ChatGPT, wurde Consensus schließlich gelauncht.

Die KI hinter der Anwendung

Infobox: RAG

Retrieval Augmented Generation (RAG) ist ein Verfahren, dass die Verlässlichkeit von Large Language Models (LLM) steigert, die Ergebnisse spezifischer macht und unerwünschte Nebeneffekte wie etwa Halluzinationen eliminiert. Gewöhnlich zieht ein LLM das Wissen, mit dem es operiert und auf Prompts antwortet aus dem Datensatz, mit dem es trainiert wurde. Das Wissen wird hierbei implizit generiert und reicht meist aus, um allgemeine Fragestellungen zu beantworten. Verlangen die Prompts jedoch nach spezifischem Wissen, so antwortet ein LLM gegebenenfalls unspezifisch oder erfindet Wissen, ein Effekt der als „Halluzination“ unter Forschenden weithin bekannt ist. Bei RAG werden dem LLM zusätzliche Wissensquellen hinzugefügt, auf die es zugreifen kann und in Folge nicht mehr auf das implizit generierte Wissen aus den Trainingsdaten angewiesen ist. So erlaubt es RAG, spezifisches Wissen in ein LLM einzuspeisen und so verlässlicher zu machen.

Doch wie genau funktioniert das Tool? In Consensus stecken verschiedenste KI-Anwendungen, die das Tool stützen. Von den Entwickler:innen selbst wird die Funktionsweise von Consensus als Fließband beschrieben. Mehr als 25 verschiedene Large Language Models (LLM) arbeiten an verschiedenen Stationen des Prozesses zusammen, um die finalen Ergebnisse auszugeben. Daneben operiert Consensus noch mit zusätzlichen Vector- und Keyword-Searches, wodurch spezifische Metadaten generiert werden.

Neben klassischer Retrieval Augmented Generation (RAG), welche die Ergebnisse von Consensus zuverlässiger und stichhaltiger macht, verfolgt das Unternehmen auch einen neueren Ansatz. Bevor spezifische Daten abgerufen werden, sollen zunächst zusätzliche Metadaten generiert werden, die im weiteren Arbeitsprozess des Tools nützlich sein könnten. Es handelt sich gewissermaßen um eine Umkehrung des RAG, also um Generation-Augmented Retrieval, wie das Unternehmen selbst angibt.

Durch dieses komplexe Zusammenspiel an Technologien werden die vorhandenen Quellen aus den Datenbanken gerankt und schlussendlich nur diejenigen verwendet, die spezifischen Kriterien zufolge (Studiendesign, Publikationszeitpunkt, Journal, Anzahl der Zitationen etc.) als die besten gelten. Für einzelne Funktionen, wie die der Zusammenfassung, greift Consensus auf GPT4 von OpenAI zurück.

Das rhetorische Potenzial des Tools

Wirkmächtig ist Consensus insbesondere für den Aspekt der Rhetorik, der in der Fachsprache logos genannt wird – die Überzeugung durch stichhaltige, inhaltlich korrekte Argumente. Argumente sind nur dann glaubhaft und damit wirksam, wenn sie begründet werden können. In wissenschaftlichen Erkenntnissen und Studien lassen sich stichhaltige Begründungen finden und Argumente damit überzeugend bauen. Consensus erleichtert den Zugang zu diesen Erkenntnissen und fasst wissenschaftlichen Konsens präzise zusammen. Nimmt man beispielsweise die Ergebnisse des Consensus Meters aus dem oben abgebildeten Beispiel zur Hilfe, so könnte ein Argument folgendermaßen aussehen: „Vegane Ernährung ist gesünder für den Menschen als omnivore Ernährung, das bestätigen mehr als 70% der aktuellen Studien zum Thema.“

Dieses wirkt viel überzeugender als ein bloßes: „Vegane Ernährung ist laut aktueller Studien gesünder für den Menschen als omnivore Ernährung." Denn Zahlen und Daten schaffen Evidenzeffekte (rhetorisch evidentia), und überzeugen die Adressat:innen nochmals auf einer anderen Ebene, da auf konkrete Fakten verwiesen werden kann.

Selbstverständlich braucht es nicht zwingend Consensus, um solche Argumente zu bauen und wissenschaftliche Ergebnisse in sie einfließen zu lassen, jedoch wird durch das Tool ein guter Teil der Recherchezeit eingespart. Die Auffindung der Argumente – inventio genannt – erfolgt dank Consensus deutlich schneller. Vorteile bietet das Tool jedoch auch in der elocutio, dem Ausformulieren des Stoffes, denn das erledigt Consensus ja bereits in Teilen, indem es seine Ergebnisse in natürlicher Sprache ausgibt. Hier fehlt von Seiten des Tools jedoch die in der Rhetorik essenzielle Adressat:innenorientierung sowie die Wahrung der Angemessenheit (aptum). Consensus gibt seine Antworten stets im gleichen Stil aus. Jedoch muss Kommunikation abhängig davon, wen sie erreichen soll, an die Zielgruppe angepasst werden. So muss derselbe Inhalt ganz unterschiedlich ausformuliert sein, je nachdem ob damit Kinder, Akademiker:innen, Fachpublikum, Skeptiker:innen, Leser:innen einer Zeitung oder Social Media Nutzer:innen erreicht werden sollen. Diese Anpassung kann Consensus nicht bieten, die finale Formulierung muss also von den Nutzer:innen des Tools selbst vorgenommen werden.

Einsatz in der Wissenschaftskommunikation

Für die Wissenschaftskommunikation bietet Consensus breite Einsatzmöglichkeiten. Es liefert seinen Nutzer:innen einen guten Überblick zu spezifischen Fragen spezifischer Forschungsfelder, versorgt sie mit weiterführenden Quellen, Kernthesen und einer Darstellung der vorherrschenden wissenschaftlichen Meinungen. Fachfremden Personen, wie etwa Journalist:innen werden so in kurzer Zeit und ohne Rechercheaufwand tiefe Insights in ein Forschungsfeld ermöglicht. Wissenschaftskommunikator:innen können so wiederum qualitativ hochwertige Inhalte generieren, die sich auf wissenschaftliche Fakten stützen. Consensus bereitet die wissenschaftlichen Erkenntnisse anschaulich auf, was es Akteur:innen in der Wissenschaftskommunikation wiederum leichter macht, die Inhalte zu verstehen und weiterzuvermitteln.

Durch die hohen Standards des Tools und die Fokussierung der ausgegebenen Ergebnisse auf die – nach spezifischen Kriterien – besten und wissenschaftlichsten, wird zudem verhindert, dass qualitativ schlechte Forschung oder gar Fehlinformationen Einzug in die Wissenschaftskommunikation erhalten und weiterverbreitet werden.

Durch die spezifischen Sucheinstellungen des Tools werden jedoch auch im wissenschaftlichen System gängige Biases reproduziert und Machtstrukturen gefestigt. Randgruppen und Minderheiten haben so weniger Chancen gehört zu werden, wenn ihre Paper beispielsweise gar nicht erst für die Ergebnisse von Consensus verwendet werden, da sie zu selten zitiert wurden. Auch der Fakt, dass Consensus vor allem auf Englisch und mit englischen Quellen operiert, fällt hier stark ins Gewicht. Wobei es sich dabei um ein generelles Phänomen der Wissenschaft handelt, die vorwiegend in Englischer Sprache stattfindet.

Neben dem Fokus auf den englischen Sprachraum ist, wie bereits erwähnt, auch deutlich sichtbar, dass Consensus nicht alle Wissenschaften gleichermaßen abdeckt, sondern primär die Natur- und Ingenieurswissenschaften. Bei geisteswissenschaftlichen Fragen etwa werden die Ergebnisse dünner und damit auch weniger verlässlich. Die Database umfasst nur digitalisiertes Wissen und weist damit wiederum zahlreiche leere Flecken in der Forschung auf.

Damit eignet sich Consensus zwar für den Einsatz in der Wissenschaftskommunikation, doch nicht uneingeschränkt und nicht für alle Forschungsfelder gleichermaßen.

Wrap Up

Consensus ist ein beachtenswertes Tool, das seinen Nutzer:innen ermöglicht, sich Fragen innerhalb kürzester Zeit wissenschaftlich fundiert, anschaulich und verständlich beantworten zu lassen. Es hat zahlreiche Funktionen, die einen guten Überblick zu wissenschaftlichem Konsens und Kerninhalten einzelner Forschungsfelder ermöglichen und ist damit für Expert:innen und Fachfremde gleichermaßen eine mögliche Hilfestellung im Alltag. Jedoch hat das Tool auch seine Limitationen, indem es einzelne Forschungsbereiche besser abbildet als andere, herrschende Biases und Machtstrukturen verfestigt und wenig flexibel ist. Es bleibt zu beobachten, inwiefern die Entwickler:innen Consensus weiter ausbauen und ob damit ein Grundstein für neues wissenschaftliches Arbeiten, gemeinsam mit KI, entstanden ist.