Dass KI auch im Journalismus zum Einsatz kommt, ist im Jahr 2025 keine Überraschung mehr. Bereits seit Anfang 2024 gibt es hierzu einen Leitfaden des Schweizer Presserats, das BAKOM hat im Februar eine fög-Untersuchung dazu veröffentlicht (die Reto Vogt auf LinkedIn zusammengefasst und kommentiert hat), und SRF hat im Dezember über den KI-Einsatz bei Ringier/Blick und bei SRF selbst berichtet. Genauer hingesehen hat die BBC in UK ebenfalls im Dezember 2024, und im Februar 2025 einen Bericht dazu veröffentlicht. Dieser kommt kurz gesagt zum Schluss, dass die von den getesteten Chatbots erstellten Zusammenfassungen von BBC-Artikeln erhebliche Ungenauigkeiten und Verzerrungen enthielten.
Inhalte
ToggleWas hat die BBC getestet?
Konkret hat die BBC ChatGPT von OpenAI, Copilot von Microsoft, Gemini von Google und Perplexity Zugriff auf die Inhalte der BBC-Webseite gegeben und den vier Chat-Bots anschliessend Fragen zu den dort veröffentlichten journalistischen Texten gestellt. Das entspricht vom Vorgehen her sowohl der Arbeit eines Journalisten, welcher sich durch eine KI verschiedene Quellen zusammenfassen lässt; als auch dem Vorgehen einer Leserin, welche einen Chatbot zu einem Text befragt, anstatt ihn selbst zu lesen. Die so generierten Antworten und Zusammenfassungen wurden anschliessend von mit dem jeweiligen Thema vertrauten BBC-Journalisten überprüft.
Die zusammengefassten Ergebnisse dürften niemanden überraschen, der die Fähigkeiten und Entwicklung von LLM-basierten Chatbots verfolgt:
- 51 % der KI-Antworten wiesen erhebliche Probleme auf,
- 19 % der KI-Antworten, die BBC-Inhalte zitierten, enthielten sachliche Fehler,
- 13 % der Zitate, die BBC-Artikeln zugeschrieben wurden, wurden entweder verändert oder kamen in den zitierten Artikeln nicht vor.
Der Bericht führt einige augenfällige Beispiele zu den festgestellten Fehlern auf.
Genauigkeit
Untersucht wurde die generelle Genauigkeit von KI-Antworten, und ob die Aussagen in den Antworten durch die vom jeweiligen Bot zitierten Quellen gestützt wurden. Insbesondere Gemini fiel hier negativ auf, 46 % der Antworten wiesen erhebliche Probleme auf (bei den anderen drei Bots lag die Quote zwischen 20 und 30 %).
- Bei einem Artikel über die Gefahren von Vaping hielt Gemini in der Antwort fest, dass der NHS (der britische Gesundheitsdienst) von Vaping abrät und aussteigewilligen Rauchern empfiehlt, andere Methoden zu verwenden. Dies, obwohl der bei der Antwort zitierte Artikel festhält, dass der NHS Vaping durchaus als Ausstiegsweg empfiehlt, und sogar kostenlose Vape Kits für Erwachsene anbietet.
- Auf die Frage, wie Gisele Pelicot herausfand, dass sie Opfer von Massenvergewaltigungen und -missbrauch wurde, antwortete Copilot, dass sie aufgrund Symptome wie Gedächnisverlust und Blackouts hellhörig wurde. In Realität fand die Polizei entsprechende Videos auf den Geräten ihres Mannes und Gisele Pelicot erfuhr erst anhand der Fragen der Polizei über den an ihr verübten Missbrauch.
Neben diesen krassen Beispielen von „erfundenen“ Tatsachen fanden die BBC-Experten auch weitere Ungenauigkeiten, zum Beispiel in Bezug auf Jahreszahlen oder die Frage, ob jemand noch am Leben oder bereits verstorben war. Perplexity verfälschte in mindestens einem Fall ein Originalzitat und paraphrasierte es weitgehend sinngemäss, aber nichtsdestotrotz falsch.
Einbezug von Quellen
Auch beim Einbezug von Quellen sorgte vor allem Gemini für eine hohe Fehlerquote: über 45 % der Gemini–Antworten enthielten entweder keine Quellen oder gaben diese falsch/sinnentstellend wieder.
Generell schwer taten sich die KI-Bots mit der zeitlichen Einordnung von Quellen (d.h. auf der BBC-Webseite zugänglichen Artikel). So wurden teilweise ältere Artikel bevorzugt, was zur Behauptung führte, dasss der ehemalige Premierminister Rishi Sunak noch im Amt sei. Bei einer Frage nach dem aktuellen Stand der Bestrebungen für die Unabhängigkeit von Schottland stützte sich Copilot alleinig auf einen Beitrag von 2022 ab, obwohl diverse aktuellere Artikel verfügbar waren.
Geradezu fantasievoll fielen die Antworten auf Fragen bezüglich der Zunahme von Ladendiebstählen in UK aus. Teilweise enthielten die Antworten Fakten, welche auf einer nicht als Quelle genannten Webseite aufgeführt waren. Und Copilot erwähnte den Einbezug privater Sicherheitsfirmen im ganzen Land, obwohl sich im Quellmaterial keinerlei Hinweise darauf finden liessen.
Es dürfte in diesem Zusammenhang wenig zuversichtlich stimmen, dass KI-Suche generell schlecht mit Quellen umgeht. Gemäss einer Studie des Tow Center for Digital Journalism des Columbia Journalism Review nennen KI-Suchmaschinen bei 60 Prozent der Anfragen falsche Quellen.
Unparteilichkeit und Trennung von Meinungen und Fakten
Bei allen Bots fanden die Experten bei der Überprüfung der Antworten Fälle, in welchen in Kommentaren geäusserte Meinungen als Fakten präsentiert wurden. Teilweise wurden bei Themen, für welche die Quellen eine Frage aus verschiedenen Perspektiven beleuchteten, in der KI-Antwort jeweils nur eine dieser Perspektiven aufgeführt. Die Fehlerquote ist je nach Aspekt unterschiedlich und lag zwischen 5 und 20 %.
Erschwerend kommt hinzu, dass die getesteten KI-Assistenten ihre Antworten häufig mit kurzen, aus ein oder zwei Sätzen bestehenden, Schlussfolgerungen beendeten. Während andere Teile der Antwort normalerweise mit Zitaten und Quellenverweisen versehen waren, wurden diese zusammenfassenden Aussagen selten jemandem zugeschrieben. Und oft sind diese generierten Schlussfolgerungen irreführend oder parteiisch, was gerade bei heiklen oder wichtigen Themen irreführend sein kann.
Beispiele für einseitige Zusammenfassungen von Grundlagenartikeln fanden sich bei Themen wie Sterbehilfe oder dem Umgang mit Covid-19. Hier wurden in den Antworten teilweise auch Meinungen als Fakten wiedergegeben, was neben der eigentlichen Falschinformation auch Auswirkungen auf den Ruf von BBC als neutrale Newsquelle haben kann.
Fazit
Leserinnen müssen sich bei Medien darauf verlassen können, dass Nachrichten gemäss dem Stand des Wissens korrekt sind und klar zwischen Fakt und Meinung unterschieden wird. Dieses Vertrauen gilt auch dann, wenn News durch eine KI zusammengefasst werden. Solange die Hälfte der KI-Zusammenfassungen erhebliche Probleme wie
- ungenaue Wiedergabe von Daten, Zahlen und Tatsachenbehauptungen,
- fehlender oder unzureichender Kontext,
- Darstellung von Meinungen als Fakten, und
- Verfälschung von Inhalten wie Zitaten
aufweisen, eignen sich Chatbots nicht als Ersatz für das Lesen von News oder das Hören/Sehen von audiovisuellen News-Beiträgen. Gerade bei News können falsche Schlagzeilen oder Zusammenfassung die Haltung vieler Menschen zu einem Thema sehr direkt beeinflussen.
Insgesamt ist das Ergebnis nicht überraschend, man wird schliesslich auch bei der Nutzung von Chatbots immer wieder darauf hingewiesen, dass die generierten Antworten nicht korrekt sein müssen und zwingend verifiziert werden sollten. Dank der Analyse der BBC gibt es jetzt auch tatsachenbasierte Gründe, Chatbot-Output zum jetzigen Zeitpunkt mit einer gewissen Skepsis zu begegnen (nicht nur wenn es News geht).
Abgesehen davon: Artikel auf DNIP werden weiterhin von Menschen geschrieben. Und auch wenn wir uns für Übersetzungen und bei der Rechtschreibkorrektur gerne von der KI helfen lassen, bleiben wir schlussendlich für allfällige Felher verantwortlich.
PS: Ob die Verlegerverbände im deutschsprachigen Raum die Problematik erkannt haben, ist allerdings zu erklären. Eine vor wenigen Tagen auf LinkedIn publizierte Liste von Forderungen zum Thema „KI und Journalismus“ richtet sich vor allem an die KI-Anbieter und weitet (nicht ganz überraschend) die Diskussion ums Leistungsschutzrecht auch auf KI-generierte Inhalte aus.
Ein ungutes Gefühl bleibt auch, wenn man bedenkt, dass sich der Wissenschafts-Minister in UK offenbar von KI beraten lässt, und auch in der Schweiz im Rahmen eines Piloten speziell für Bundesräte, Amtsdirektorinnen und Staatssekretäre ein Gov-GPT bereitgestellt wurde. Bleibt zu hoffen, dass hierbei die Antworten der KI nicht für bare Münze genommen werden.