KI-Tools im Test: Consensus

In der "Deus Ex Machi­na? – KI-Tools im Test"-Reihe stel­len wir euch ver­schie­de­ne Tools vor, die mit­hil­fe von Künst­li­cher Intel­li­genz Schreib‑, Design- und Recher­che­pro­zes­se ver­ein­fa­chen sol­len. Mehr zur "Deus Ex Machina?"-Reihe gibt es hier.

Im Überblick

Es klingt wie der Traum vie­ler Stu­die­ren­der und Wissenschaftler:innen: Ein­fach eine Fra­ge ein­tip­pen und inner­halb von Sekun­den aus­ge­ge­ben bekom­men, wie die wis­sen­schaft­li­che For­schung sie beant­wor­ten wür­de, ganz ohne sich selbst durch ellen­lan­ge, hoch­kom­ple­xe Paper durch­ar­bei­ten zu müs­sen. Doch genau die­ser Wunsch­traum scheint Wirk­lich­keit gewor­den zu sein – zumin­dest, wenn man den Entwickler:innen des KI-Tools Con­sen­sus Glau­ben schen­ken möch­te. Con­sen­sus gibt näm­lich an, genau das zu sein: Eine KI-basier­te  Such­ma­schi­ne, die das aka­de­mi­sche Wis­sen der Welt sei­nen Nutzer:innen zugäng­li­cher macht.

Die Theo­rie hin­ter dem Tool ist sim­pel: Man tippt – wie in ande­ren Such­ma­schi­nen auch – eine Fra­ge ein und erhält Ant­wor­ten dar­auf in natür­li­cher Spra­che. Die­se sind aber nicht aus belie­bi­gen Quel­len, wie etwa den meist­ge­klick­ten Web­sei­ten zu einem The­ma, gene­riert, son­dern nur aus dem Bes­ten, was die Wis­sen­schaft zur­zeit an Ant­wor­ten zu bie­ten hat. Über 80 ver­schie­de­ne Wis­sen­schafts­ge­bie­te soll Con­sen­sus nach eige­nen Anga­ben abdecken.

Grund­la­ge für die gene­rier­ten Ergeb­nis­se ist die Seman­tic Scho­lar Data­ba­se, in der sich über 200 Mil­lio­nen wis­sen­schaft­li­che Paper – Stu­di­en sowie Theo­rie­tex­te –  fin­den las­sen. Dar­über hin­aus – so Con­sen­sus – wird die Base ste­tig erwei­tert. Dank die­ser Grund­la­ge und den eige­nen LLMs und Such­tech­no­lo­gien soll Con­sen­sus sei­nen Nutzer:innen – anders als etwa ChatGPT  – nicht die wahr­schein­lichs­te Ant­wort aus­ge­ben, son­dern die wis­sen­schaft­lich kor­rek­tes­te. Dar­ge­stellt wer­den die Ant­wor­ten in natür­li­cher Spra­che und jeweils auf Grund­la­ge spe­zi­fi­scher Paper, die auch ein­ge­se­hen wer­den kön­nen und aus denen direkt Zita­te ange­zeigt wer­den. Pro Fra­ge wer­den die 20 am bes­ten geeig­ne­ten Paper genutzt.

Die Grund­funk­ti­on des Tools

Soweit das Grund­prin­zip des Tools. Dane­ben lässt sich die Suche noch durch zahl­rei­che Add Ons ver­ein­fa­chen und ver­fei­nern. Con­sen­sus bie­tet bei­spiels­wei­se eine Zusam­men­fas­sung der zehn bes­ten Paper an, die wie­der­um eine Ant­wort auf die gestell­te Fra­ge lie­fern. Bei Fra­gen, die kla­re ja/n­ein-Ant­wor­ten zulas­sen, kann zudem das so genann­te Con­sen­sus Meter genutzt wer­den, mit dem schnell sicht­bar wird, ob wis­sen­schaft­li­cher Kon­sens zu einem The­ma besteht oder es eher umstrit­ten ist. Der Copi­lot von Con­sen­sus schlüs­selt die gestell­te Fra­ge noch­mals in ein­zel­ne Kern­ele­men­te bzw. Kern­the­men auf und beant­wor­tet die­se – ver­se­hen mit Quel­len­an­ga­ben – auf Grund­la­ge der ver­wen­de­ten Paper.

Screenshot des Consensus Meters und der Zusammenfassung
Zusam­men­fas­sung und Con­sen­sus Meter
Der Con­sen­sus Copilot

Con­sen­sus bie­tet auch einen soge­nann­ten Stu­dy Snapshot an. Damit kön­nen zen­tra­le Ele­men­te des Stu­di­en­de­signs, wie etwa die Metho­den, Stich­pro­ben­grö­ße, unter­such­te Grup­pe etc. auf einen Blick ein­ge­se­hen wer­den, wodurch schnel­le Rück­schlüs­se auf die Aus­sa­ge­kraft der Stu­die mög­lich sind.  In unse­rem Test war der Stu­dy Snapshot jedoch nur bei ca. der Hälf­te der auf­ge­ge­be­nen Ergeb­nis­se mit Infor­ma­tio­nen ver­se­hen. Beim Rest fehl­ten Angaben.

Der Stu­dy Snapshot

Ver­fei­nern kann man die Suche mit Con­sen­sus auch durch spe­zi­fi­sche Fil­ter, mit denen nur aus­ge­wähl­te Paper von dem Pro­gramm aus­ge­ge­ben wer­den. Gefil­tert wer­den kann bei­spiels­wei­se nach Stich­pro­ben­grö­ße, Metho­do­lo­gie, Open-Access-Publi­ka­tio­nen, Stu­di­en­de­sign und mehr. Con­sen­sus ver­sieht die aus­ge­ge­be­nen Ant­wor­ten auch noch mit eige­nen Qua­li­täts­in­di­ka­to­ren, womit ein Fokus auf die bes­ten Paper mög­lich ist. So wer­den etwa die Anzahl der Zita­tio­nen, die Qua­li­tät des Jour­nals, in dem ver­öf­fent­licht wur­de oder der Stu­di­en­typ bewertet.

Durch die­se Funk­ti­ons­wei­sen wird bereits deut­lich, dass Con­sen­sus vor allem einen Fokus auf Natur­wis­sen­schaft und natur­wis­sen­schaft­li­che For­schung legt und ent­spre­chend an die­ses Wis­sen­schafts­sys­tem ange­passt ist. Zwar gibt das Unter­neh­men an, auch nicht-natur­wis­sen­schaft­li­che Fächer ein­zu­be­zie­hen und in unse­rem Test erhiel­ten wir auch Ant­wor­ten auf geis­tes­wis­sen­schaft­li­che Fra­ge­stel­lun­gen. Es lässt sich aber fest­stel­len, dass das Tool an sei­ne Gren­zen kommt, je weni­ger empi­risch eine Wis­sen­schaft arbei­tet. Con­sen­sus ist auf prä­zi­se for­mu­lier­te Ant­wor­ten trai­niert, die in geis­tes­wis­sen­schaft­li­cher For­schung sel­ten gege­ben wer­den kön­nen. Für klei­ne­re For­schungs­ge­bie­te, wie etwa das der Rhe­to­rik, sind die Ergeb­nis­se noch weni­ger aus­sa­ge­kräf­tig. Hier zei­gen sich die Lücken in der Daten­bank. Glei­ches gilt für Fächer, die nicht pri­mär ineng­li­scher Spra­che publi­zie­ren, wie etwa die Nationalphilologien.

Con­sen­sus ist nach Anmel­dung über das Goog­le Kon­to oder mit­tels Email­adres­se kos­ten­los nutz­bar, jedoch sind die ver­tief­ten Such­mög­lich­kei­ten stark limi­tiert und es ste­hen Nutzer:innen nur eine begrenz­te Anzahl an Fra­gen, die mit Con­sen­sus Meter, Zusam­men­fas­sung und Copi­lot beant­wor­tet wer­den, zur Ver­fü­gung. Wer dau­er­haft auf den vol­len Umfang zugrei­fen möch­te, muss ein Abon­ne­ment abschlie­ßen. Gegrün­det wur­de das Unter­neh­men 2021 von Chris­ti­an Salem und Eric Olson, bei­de Alum­ni der Nor­thwes­tern Uni­ver­si­ty in Illi­nois. Dort – so die Anga­ben der Grün­der – ist auch die Idee zu Con­sen­sus ent­stan­den: KI zu nut­zen, um Wis­sen­schaft für jeder­mann leich­ter zugäng­lich zu machen. Ende 2022, kurz vor dem Release von ChatGPT, wur­de Con­sen­sus schließ­lich gelauncht.

Die KI hinter der Anwendung

Infobox: RAG

Retrie­val Aug­men­ted Gene­ra­ti­on (RAG) ist ein Ver­fah­ren, dass die Ver­läss­lich­keit von Lar­ge Lan­guage Models (LLM) stei­gert, die Ergeb­nis­se spe­zi­fi­scher macht und uner­wünsch­te Neben­ef­fek­te wie etwa Hal­lu­zi­na­tio­nen eli­mi­niert. Gewöhn­lich zieht ein LLM das Wis­sen, mit dem es ope­riert und auf Prompts ant­wor­tet aus dem Daten­satz, mit dem es trai­niert wur­de. Das Wis­sen wird hier­bei impli­zit gene­riert und reicht meist aus, um all­ge­mei­ne Fra­ge­stel­lun­gen zu beant­wor­ten. Ver­lan­gen die Prompts jedoch nach spe­zi­fi­schem Wis­sen, so ant­wor­tet ein LLM gege­be­nen­falls unspe­zi­fisch oder erfin­det Wis­sen, ein Effekt der als „Hal­lu­zi­na­ti­on“ unter For­schen­den weit­hin bekannt ist. Bei RAG wer­den dem LLM zusätz­li­che Wis­sens­quel­len hin­zu­ge­fügt, auf die es zugrei­fen kann und in Fol­ge nicht mehr auf das impli­zit gene­rier­te Wis­sen aus den Trai­nings­da­ten ange­wie­sen ist. So erlaubt es RAG, spe­zi­fi­sches Wis­sen in ein LLM ein­zu­spei­sen und so ver­läss­li­cher zu machen.

Doch wie genau funk­tio­niert das Tool? In Con­sen­sus ste­cken ver­schie­dens­te KI-Anwen­dun­gen, die das Tool stüt­zen. Von den Entwickler:innen selbst wird die Funk­ti­ons­wei­se von Con­sen­sus als Fließ­band beschrie­ben. Mehr als 25 ver­schie­de­ne Lar­ge Lan­guage Models (LLM) arbei­ten an ver­schie­de­nen Sta­tio­nen des Pro­zes­ses zusam­men, um die fina­len Ergeb­nis­se aus­zu­ge­ben. Dane­ben ope­riert Con­sen­sus noch mit zusätz­li­chen Vec­tor- und Key­word-Sear­ches, wodurch spe­zi­fi­sche Meta­da­ten gene­riert werden.

Neben klas­si­scher Retrie­val Aug­men­ted Gene­ra­ti­on (RAG), wel­che die Ergeb­nis­se von Con­sen­sus zuver­läs­si­ger und stich­hal­ti­ger macht, ver­folgt das Unter­neh­men auch einen neue­ren Ansatz. Bevor spe­zi­fi­sche Daten abge­ru­fen wer­den, sol­len zunächst zusätz­li­che Meta­da­ten gene­riert wer­den, die im wei­te­ren Arbeits­pro­zess des Tools nütz­lich sein könn­ten. Es han­delt sich gewis­ser­ma­ßen um eine Umkeh­rung des RAG, also um Gene­ra­ti­on-Aug­men­ted Retrie­val, wie das Unter­neh­men selbst angibt.

Durch die­ses kom­ple­xe Zusam­men­spiel an Tech­no­lo­gien wer­den die vor­han­de­nen Quel­len aus den Daten­ban­ken gerankt und schluss­end­lich nur die­je­ni­gen ver­wen­det, die spe­zi­fi­schen Kri­te­ri­en zufol­ge (Stu­di­en­de­sign, Publi­ka­ti­ons­zeit­punkt, Jour­nal, Anzahl der Zita­tio­nen etc.) als die bes­ten gel­ten. Für ein­zel­ne Funk­tio­nen, wie die der Zusam­men­fas­sung, greift Con­sen­sus auf GPT4 von Ope­nAI zurück.

Das rhetorische Potenzial des Tools

Wirk­mäch­tig ist Con­sen­sus ins­be­son­de­re für den Aspekt der Rhe­to­rik, der in der Fach­spra­che logos genannt wird – die Über­zeu­gung durch stich­hal­ti­ge, inhalt­lich kor­rek­te Argu­men­te. Argu­men­te sind nur dann glaub­haft und damit wirk­sam, wenn sie begrün­det wer­den kön­nen. In wis­sen­schaft­li­chen Erkennt­nis­sen und Stu­di­en las­sen sich stich­hal­ti­ge Begrün­dun­gen fin­den und Argu­men­te damit über­zeu­gend bau­en. Con­sen­sus erleich­tert den Zugang zu die­sen Erkennt­nis­sen und fasst wis­sen­schaft­li­chen Kon­sens prä­zi­se zusam­men. Nimmt man bei­spiels­wei­se die Ergeb­nis­se des Con­sen­sus Meters aus dem oben abge­bil­de­ten Bei­spiel zur Hil­fe, so könn­te ein Argu­ment fol­gen­der­ma­ßen aus­se­hen: „Vega­ne Ernäh­rung ist gesün­der für den Men­schen als omni­vo­re Ernäh­rung, das bestä­ti­gen mehr als 70% der aktu­el­len Stu­di­en zum Thema.“ 

Die­ses wirkt viel über­zeu­gen­der als ein blo­ßes: „Vega­ne Ernäh­rung ist laut aktu­el­ler Stu­di­en gesün­der für den Men­schen als omni­vo­re Ernäh­rung." Denn Zah­len und Daten schaf­fen Evi­denz­ef­fek­te (rhe­to­risch evi­den­tia), und über­zeu­gen die Adressat:innen noch­mals auf einer ande­ren Ebe­ne, da auf kon­kre­te Fak­ten ver­wie­sen wer­den kann.

Selbst­ver­ständ­lich braucht es nicht zwin­gend Con­sen­sus, um sol­che Argu­men­te zu bau­en und wis­sen­schaft­li­che Ergeb­nis­se in sie ein­flie­ßen zu las­sen, jedoch wird durch das Tool ein guter Teil der Recher­che­zeit ein­ge­spart. Die Auf­fin­dung der Argu­men­te – inven­tio genannt – erfolgt dank Con­sen­sus deut­lich schnel­ler. Vor­tei­le bie­tet das Tool jedoch auch in der elo­cu­tio, dem Aus­for­mu­lie­ren des Stof­fes, denn das erle­digt Con­sen­sus ja bereits in Tei­len, indem es sei­ne Ergeb­nis­se in natür­li­cher Spra­che aus­gibt. Hier fehlt von Sei­ten des Tools jedoch die in der Rhe­to­rik essen­zi­el­le Adressat:innenorientierung sowie die Wah­rung der Ange­mes­sen­heit (aptum). Con­sen­sus gibt sei­ne Ant­wor­ten stets im glei­chen Stil aus. Jedoch muss Kom­mu­ni­ka­ti­on abhän­gig davon, wen sie errei­chen soll, an die Ziel­grup­pe ange­passt wer­den. So muss der­sel­be Inhalt ganz unter­schied­lich aus­for­mu­liert sein, je nach­dem ob damit Kin­der, Akademiker:innen, Fach­pu­bli­kum, Skeptiker:innen, Leser:innen einer Zei­tung oder Social Media Nutzer:innen erreicht wer­den sol­len. Die­se Anpas­sung kann Con­sen­sus nicht bie­ten, die fina­le For­mu­lie­rung muss also von den Nutzer:innen des Tools selbst vor­ge­nom­men werden.

Einsatz in der Wissenschaftskommunikation

Für die Wis­sen­schafts­kom­mu­ni­ka­ti­on bie­tet Con­sen­sus brei­te Ein­satz­mög­lich­kei­ten. Es lie­fert sei­nen Nutzer:innen einen guten Über­blick zu spe­zi­fi­schen Fra­gen spe­zi­fi­scher For­schungs­fel­der, ver­sorgt sie mit wei­ter­füh­ren­den Quel­len, Kern­the­sen und einer Dar­stel­lung der vor­herr­schen­den wis­sen­schaft­li­chen Mei­nun­gen. Fach­frem­den Per­so­nen, wie etwa Journalist:innen wer­den so in kur­zer Zeit und ohne Recher­che­auf­wand tie­fe Insights in ein For­schungs­feld ermög­licht. Wissenschaftskommunikator:innen kön­nen so wie­der­um qua­li­ta­tiv hoch­wer­ti­ge Inhal­te gene­rie­ren, die sich auf wis­sen­schaft­li­che Fak­ten stüt­zen. Con­sen­sus berei­tet die wis­sen­schaft­li­chen Erkennt­nis­se anschau­lich auf, was es Akteur:innen in der Wis­sen­schafts­kom­mu­ni­ka­ti­on wie­der­um leich­ter macht, die Inhal­te zu ver­ste­hen und weiterzuvermitteln.

Durch die hohen Stan­dards des Tools und die Fokus­sie­rung der aus­ge­ge­be­nen Ergeb­nis­se auf die – nach spe­zi­fi­schen Kri­te­ri­en – bes­ten und wis­sen­schaft­lichs­ten, wird zudem ver­hin­dert, dass qua­li­ta­tiv schlech­te For­schung oder gar Fehl­in­for­ma­tio­nen Ein­zug in die Wis­sen­schafts­kom­mu­ni­ka­ti­on erhal­ten und wei­ter­ver­brei­tet werden.

Durch die spe­zi­fi­schen Such­ein­stel­lun­gen des Tools wer­den jedoch auch im wis­sen­schaft­li­chen Sys­tem gän­gi­ge Bia­ses repro­du­ziert und Macht­struk­tu­ren gefes­tigt. Rand­grup­pen und Min­der­hei­ten haben so weni­ger Chan­cen gehört zu wer­den, wenn ihre Paper bei­spiels­wei­se gar nicht erst für die Ergeb­nis­se von Con­sen­sus ver­wen­det wer­den, da sie zu sel­ten zitiert wur­den. Auch der Fakt, dass Con­sen­sus vor allem auf Eng­lisch und mit eng­li­schen Quel­len ope­riert, fällt hier stark ins Gewicht. Wobei es sich dabei um ein gene­rel­les Phä­no­men der Wis­sen­schaft han­delt, die vor­wie­gend in Eng­li­scher Spra­che stattfindet.

Neben dem Fokus auf den eng­li­schen Sprach­raum ist, wie bereits erwähnt, auch deut­lich sicht­bar, dass Con­sen­sus nicht alle Wis­sen­schaf­ten glei­cher­ma­ßen abdeckt, son­dern pri­mär die Natur- und Inge­nieurs­wis­sen­schaf­ten. Bei geis­tes­wis­sen­schaft­li­chen Fra­gen etwa wer­den die Ergeb­nis­se dün­ner und damit auch weni­ger ver­läss­lich. Die Data­ba­se umfasst nur digi­ta­li­sier­tes Wis­sen und weist damit wie­der­um zahl­rei­che lee­re Fle­cken in der For­schung auf.

Damit eig­net sich Con­sen­sus zwar für den Ein­satz in der Wis­sen­schafts­kom­mu­ni­ka­ti­on, doch nicht unein­ge­schränkt und nicht für alle For­schungs­fel­der gleichermaßen.

Wrap Up

Con­sen­sus ist ein beach­tens­wer­tes Tool, das sei­nen Nutzer:innen ermög­licht, sich Fra­gen inner­halb kür­zes­ter Zeit wis­sen­schaft­lich fun­diert, anschau­lich und ver­ständ­lich beant­wor­ten zu las­sen. Es hat zahl­rei­che Funk­tio­nen, die einen guten Über­blick zu wis­sen­schaft­li­chem Kon­sens und Kern­in­hal­ten ein­zel­ner For­schungs­fel­der ermög­li­chen und ist damit für Expert:innen und Fach­frem­de glei­cher­ma­ßen eine mög­li­che Hil­fe­stel­lung im All­tag. Jedoch hat das Tool auch sei­ne Limi­ta­tio­nen, indem es ein­zel­ne For­schungs­be­rei­che bes­ser abbil­det als ande­re, herr­schen­de Bia­ses und Macht­struk­tu­ren ver­fes­tigt und wenig fle­xi­bel ist. Es bleibt zu beob­ach­ten, inwie­fern die Entwickler:innen Con­sen­sus wei­ter aus­bau­en und ob damit ein Grund­stein für neu­es wis­sen­schaft­li­ches Arbei­ten, gemein­sam mit KI, ent­stan­den ist.