Vogt am Freitag: Manipulativ

Können KI-Modelle so beeinflusst werden, dass sie irreführende oder propagandistische Inhalte verbreiten? Die kurze Antwort lautet: Ja. Die Realität dahinter ist komplexer, schreibt Kolumnist Reto Vogt.

Neulich fragte mich ein Teilnehmer in einem meiner KI-Workshops, ob er ChatGPT beeinflussen könne. Zum Beispiel indem er dem System immer wieder schreibt, wie grossartig er sei. Und ob ihm das Modell irgendwann glaube und die Lobeshymnen über ihn anderen weitererzähle. Ich antwortete, dass er allein das nicht könne. Um das zu schaffen, müsse er mindestens alle 40 Workshop-Teilnehmenden bestech… oder sagen wir: nachdrücklich überzeugen, ChatGPT mit diesen Informationen zu füttern. Und selbst dann habe er höchstwahrscheinlich keine Chance.

Warum erzähle ich diese Anekdote? Weil sie einen sehr ernsten Kern mit einer gesamtgesellschaftlichen Dimension hat. Wenn Nutzerinnen und Nutzer das KI-Modell ihres Vertrauens nach dem besten Burger oder dem schönsten Turnschuh fragen, ist es für Unternehmen wie McDonalds oder Adidas relevant, ob sie selbst oder ihre Konkurrenz genannt wird. Wer es schafft, die KI-Modelle in die «richtige» Richtung zu lenken, macht mehr Umsatz. Genauso wie es relevant ist, bei Google möglichst weit oben zu ranken.

Inhalte

Von Burgern zu Weltbildern

Was bei Kleidung, Essen und anderen Konsumgütern ein vergleichsweise harmloses Wettrennen um Aufmerksamkeit ist, wird im politischen Kontext schnell zur Gefahr. Denn wer es schafft, ein KI-Modell mit gezielten Erzählungen zu prägen, beeinflusst nicht «nur» Kaufentscheidungen, sondern ganze Weltbilder. Einer aktuellen Untersuchung zufolge ist diese Gefahr real.

Nordis Hub, eine Organisation, die Desinformation im Internet bekämpft, schreibt: «Russische Propagandainhalte werden in gängige KI-Chatbots eingespeist». Um das zu bewerkstelligen, nutze Russland ein Netzwerk von über 180 Internetdomains und verbreite darüber Inhalte von Staatsmedien in verschiedenen Sprachen. Bis zu 20’000 Artikel würden darüber automatisiert publiziert – jeden Tag. «Maschinell übersetzt, schlecht recherchiert und massiv suchmaschinenoptimiert», heisst es bei Mimikama.

Fluten für die Maschine

Wirklich lesen soll die Inhalte niemand. Sie sind für Maschinen geschrieben. Wer das öffentliche Internet mit zehntausenden Artikeln flutet, zielt auf die Trainingsdaten von KI-Modellen. Je häufiger bestimmte Narrative auftauchen, desto eher werden sie vom Modell als «typisch» oder «plausibel» erkannt. Nicht, weil sie wahr sind, sondern weil sie statistisch überrepräsentiert sind. So kann russische Desinformation (und jede andere) in Antworten von KI-Modellen auftauchen.

Das Wort «kann» ist an dieser Stelle bewusst gewählt: Denn die Untersuchung von Nordis Hub zeigte gemischte Ergebnisse. Die KI-Modelle identifizierten die Propaganda «meistens» (laut den Studienautorinnen und -autoren) rechtzeitig und gaben stattdessen sachlich korrekte Antworten. In manchen Fällen hätten die getesteten KIs aber aus den Propaganda-Inhalten zitiert und teilweise sogar darauf verlinkt. Untersucht hatte das Team die Bezahlversion von ChatGPT und die kostenlosen Versionen von Google Gemini and Microsoft Copilot im April 2025.

Methodische Mängel

Leider geht aus der Nordis-Untersuchung nicht hervor, in wie vielen Fällen konkret russische Propaganda widergegeben und wie oft diese ausgeblendet wurde. Ebenso bleibt intransparent, welches der drei Modelle am stärksten beeinflussbar war. Und nicht zuletzt halte ich das Test-Setup für fragwürdig, weil kostenpflichtige und kostenlose Zugänge verschiedener Modelle miteinander verglichen worden sind. Das ist methodisch problematisch, zum Beispiel wegen unterschiedlicher Datenaktualität, verschiedener Modellgrössen oder anderen Sicherheitsfiltern. Und: Ohne Vergleich mit «sauberen» Modellen, die garantiert nicht mit den russischen Inhalten trainiert wurden, lässt sich schwer beurteilen, ob die problematischen Antworten wirklich auf die Manipulation zurückgehen oder «einfach so» halluziniert wurden.

Damit will ich nicht die Untersuchung schlecht reden, die richtige und wichtige Fragen stellt. Allerdings spitzen sowohl Nordis wie auch Mimikama in ihrer Kommunikation meiner Meinung nach zu stark zu. Denn unter dem Strich ist die Erkenntnis nicht neu: Solange unklar bleibt, mit welchen Daten Sprachmodelle trainiert wurden, wie sie gewichten, was sie übernehmen und was sie ausblenden, bleiben diese Systeme eine Blackbox. Genau deshalb braucht es eine sinnvolle Regulierung, die zum Beispiel regelmässige Audits, Transparenz bei Trainingsdaten oder klare rechtliche Verantwortlichkeiten für KI-Anbieter vorschreibt. Aber der Bundesrat zögert diese bewusst hinaus.

Was jetzt zu tun ist

Auf individueller Ebene hilft deshalb nur eins: Wer generative KI nutzt, muss wissen, wie sie funktioniert. Zum Launch der chinesischen KI Deepseek schrieb ich im Januar 2025: «Keine KI ist der Wahrheit verpflichtet, sondern bestenfalls der Wahrscheinlichkeit. Und schlimmstenfalls der voreingenommenen Daten, mit denen sie trainiert worden ist.» Daran hat sich nichts geändert und wird sich auf Jahre hinaus auch nichts ändern. Wer das verinnerlicht und die Qualität einer Quelle einschätzen kann, fällt nicht oder zumindest weniger auf Propagandaversuche herein – egal ob sie über KI, auf YouTube, Telegram oder am Stammtisch verbreitet werden.

Vogt am Freitag: Manipulativ

Von Burgern zu Weltbildern

Fluten für die Maschine

Methodische Mängel

Was jetzt zu tun ist

dnip.ch mit Deiner Spende unterstützen

Schreibe einen Kommentar Antwort abbrechen

Weitere Beiträge

DNIP Briefing #52: Datencenter im Weltall

Vogt am Freitag: Köder

Newsletter abonnieren