Suche
Close this search box.

Die KI-Modelle beklauen die Medien — Fehlender Faktencheck der NZZ

Ein stilisierter Roboter mit Comic-Dieb-Augenbinde neben einem Fragezeichen

„Nun ist nicht nur Petra Gössi erstaunt, auch die beiden NZZ-Journalisten sind baff. Sie sind gerade Zeugen eines Datenklaus geworden, der ihre berufliche Existenz infrage stellt. Wer soll noch für Zeitungsabonnemente zahlen, wenn man gratis oder für eine Gebühr von etwa 20 Dollar pro Monat jede Zeitung auf der Welt durchforsten kann?“

Diese dramatischen Zeilen klingen alarmierend.

Die beiden NZZ-Journalist:innen lassen sich von FDP-Ständerätin Petra Gössi vorführen, wie ein Artikel eines Medienhauses rund um eine politische Diskussion um des Verwaltungs- und Sicherheitsgebäude Kaltbach im Kanton Schwyz von einem KI-Modell angeblich „geklaut“ worden sei.

Worum geht es aber? Der Einsiedler Anzeiger, eine unabhängige Lokalzeitung, ist hinter einer sogenannten «harten Paywall» (dazu später mehr) auch aus dem Internet abrufbar. Der besagte Artikel thematisiert die Frage, ob sich der Kanton Schwyz diesen Neubau für fast 140 Millionen Franken leisten solle.

Nun hat aber das Textgenerator-KI-Tool Perplexity offenbar die Vor-und Nachteile dieser Debatte in wenigen Klicks zusammengefasst. Die NZZ-Journalist:innen suggerieren, dass die KI-Antwort nicht anders habe zustanden kommen können als durch Training auf Basis des Artikels des Einsiedlers Anzeigers:

„Doch beinahe der gesamte Inhalt des Artikels ist in der Antwort von Perplexity zu lesen.“

Alle Zitate aus: Christina Neuhaus und Barnaby Skinner: Petra Gössi macht den Chatbot-Test: Klaut sich die KI ihre Inhalte aus Zeitungen zusammen?, NZZ, 2024-09-21.

Sie schreiben zudem: „Ausser den lokalen und regionalen Medien berichtet niemand darüber.

Bei DNIP sind wir uns gewohnt, Fragen zu stellen. Und bei diesem Artikel drängen sich uns etliche Fragen auf. Fragen, bei denen wir auch von einer Qualitätszeitung wie der NZZ erwartet hätten, sie zu stellen. Wie kann es sein, dass Gössis Behauptung unwidersprochen stehen gelassen wurden? Dass sie weder nachvollziehbar dokumentiert noch irgendwie eingeordnet worden sind?

Wir versuchen das für unsere Leser:innen nachzuholen.

Zeitliche und örtliche Einordnung des Artikels

  • Der publizierte NZZ-Artikel stammt vom 21. September.
  • Das Treffen mit Gössi in der NZZ-Redaktion fand „im Spätsommer“ statt.
  • Der Artikel im Einsiedler Anzeiger wurde am 9. August publiziert.

Der Artikel im Einsiedler Anzeiger ist allerdings bei Weitem nicht der Einzige, der das umstrittene Bauprojekt thematisiert. Alleine aus dem Zeitraum Juli bis September fanden wir im Medienarchiv SMD insgesamt sechs Artikel. Einer davon stammt von der Agentur SDA, eines vom Kurznachrichtenportal nau.ch, eines sogar von SRF Audio.

Die Aussage, nur lokale Medien würden berichten, ist also falsch. Der SRF Audio-Beitrag handelte explizit vom Pro und Contra der Vorlage. Er erschien am 2. September (vielleicht noch vor dem Treffen mit Gössi, genau wissen wir das nicht).

Erstaunliches Erstaunen

Erstaunlich ist aber vor allem das Erstaunen, das dem Sammeln der Trainingsdaten durch KI-Bots zwei Jahre nach dem ChatGPT-Hype entgegengebracht wird. Denn zum Kerngeschäft der Online-Zeitungen gehört seit Jahrzehnten auch die detaillierte Steuerung, welche Kundengruppe welche Artikel sehen darf; inklusive, was die Datensammler («Crawler») der Suchmaschinen zusammentragen dürfen.

Lange Leitung

Grosse KI-Sprachmodelle («LLM», Large Language Model) haben meist einen Wissensstand, der dem Internet um mehrere Monate hinterherhinkt. Gewisse KI-Modelle, wie dasjenige von Bing (inzwischen unter dem nicht ganz eindeutigen Namen «Microsoft Copilot») oder eben das im NZZ-Artikel zitierte Perplexity, versuchen das durch Kombination mit Livesuche abzukürzen:

  1. Aufgrund der Benutzeranfrage («Prompt») wird eine Websuche generiert
  2. Die in den Ergebnissen dieser Websuche referenzierten Webseiten werden heruntergeladen
  3. Diese Inhalten werden — neben den bereits im LLM vorhandenen Daten — temporär als Zusatzinformationen für die Beantwortung dieser Benutzeranfrage nutzbar gemacht
  4. Mit Basiswissen plus temporären Zusatzinformationen wird nun die Frage beantwortet

Sowohl Bing als auch Perplexity geben die für die Zusatzinformationen herangezogenen Webseiten an. Hier beispielsweise eine aktuelle Antwort von Perplexity auf die Frage «Nenne mir die Vor- und Nachteile des Verwaltungs- und Sicherheitsgebäudes Kaltbach im Kanton Schwyz»:

Benutzt wurden drei offizielle Quellen des Kantons Schwyz, zwei Seiten des Befürworterkomitees, drei Seiten des «Bote der Urschweiz» (eine davon ein PDF einer Zeitungsseite auf der Webseite des Spital Schwyz), je eine Seite der Luzerner Zeitung, von Nau.ch und von SRF. Hier fehlt der Einsiedler Anzeiger. Natürlich wird eine Suche im Spätsommer andere Resultate geliefert haben und andere Quellen benutzt haben. Aber schon im April war auf Nau.ch ein Artikel von Keystone-SDA zum Thema publiziert worden und Nau.ch scheint KI-Crawlern keinerlei Einschränkungen aufzuerlegen.

Wie wirken Paywalls?

Rund um die Funktion von Paywalls herrscht viel Unklarheit, u.a. auch, weil sich die Zeitungen nur ungern in ihre Karten schauen lassen wollen. Schauen wir uns deshalb ein paar typische Beispiele an:

  • Harte („hard“) Paywall: Der Artikelinhalt ist zahlenden Leserinnen vorbehalten. Deshalb schickt der Webserver der Zeitung nur die ersten paar Sätze des Artikels überhaupt mit, um sonstige Besucherinnen „gluschtig“ zu machen, die beispielsweise via Suchmaschinen auf die Seite gefunden haben.
  • Harte Paywall mit Ausnahmen: Eine harte Paywall hat den Nachteil, dass weniger Verbreitung via Suchmaschinen und soziale Medien erfolgt. Entsprechend gibt es Varianten der harten Paywall, die Suchmaschinen zu erkennen versuchen und sie wie zahlende Leserinnen behandeln, ihnen also trotzdem den vollen Artikel ausliefern. (Andere — in der Tabelle nicht erwähnte — Ausnahmen sind, dass der Artikel die ersten paar Stunden für alle lesbar ist oder dass der Artikel nach einigen Wochen für alle lesbar wird. Diese Techniken zielen auf die Verbreitung in sozialen Medien und/oder Suchmaschinen.)
  • Weiche („soft“) Paywall: Der gesamte Artikeltext wird vom Webserver zurückgeliefert. Der Webbrowser versteckt aber nach Erhalt des Textes den grössten Teil davon, falls die Leserin nicht eingeloggt ist, z.B. mittels JavaScript.
  • Keine Paywall: Der gesamte Artikeltext wird zurückgeliefert. Dies ist oft bei werbefinanzierte oder kostenlosen Online-Angeboten der Fall, beispielsweise hier bei DNIP. Beim Online-Magazin Republik wurde eine Variante davon gewählt: Wer den Link zu einem Artikel kennt, kann diesen lesen; aber die Einstiegsseite zeigt nicht alle Artikel an.
Harte PaywallHart mit AusnahmenWeiche PaywallKeine Paywall
Mit Login zurück­geliefertGanzer ArtikelGanzer ArtikelGanzer ArtikelGanzer Artikel
Für Such­maschinen-Crawler zurück­geliefertNur Kurz­versionGanzer ArtikelGanzer ArtikelGanzer Artikel
Ohne Login zurück­geliefertNur Kurz­versionNur Kurz­versionGanzer Artikel, mit JavaScript-Code, der das meiste verdecktGanzer Artikel
Für KI-Crawler zurück­geliefertNur Kurz­versionNur Kurz­versionGanzer ArtikelGanzer Artikel
Optionales Stoppschild (robots.txt)Wenig sinnvollWenig sinnvollMöglichMöglich
BeispieleTages-AnzeigerNew York TimesNZZDNIP, Republik
Auswirkungen verschiedener Paywall- und robots.txt-Optionen auf den Zugriff auf Inhalte. Die oberen drei Zeilen sind in diesem Kapitelchen erklärt, die unteren beiden im nächsten.

Beispiel: Keine Paywall (DNIP)

Wenn man eine URL im Webbrowser eintippt oder einem Link folgt, führt der Browser im Wesentlichen folgende Schritte aus:

  1. Er lädt den Inhalt der angegebenen URL herunter.
  2. Wenn dies eine HTML-Seite ist (also, eine normale Webseite), hat es darin weitere Verweise, beispielsweise auf nachzuladende Bilder, Beschreibungen über das Aussehen der Seite („style files„) oder JavaScript-Code, der interaktive Funktionen auf der Seite definiert (z.B. zur Überprüfung der Formulareingaben oder für ein Spiel auf der Seite). Diese Dokumente lädt der Browser nach.
  3. Aufgrund dieser gesammelten Informationen stellt der Browser dann die Seite dar.
  4. Zu diesem Zeitpunkt kann auch bereits geladener JavaScript-Code der Webseite ausgeführt werden. Dieser kann z.B. auch den Inhalt oder die Darstellung der Webseite verändern.

Dies sieht man sehr schön im unten stehenden Screenshot, der die Webseite mit geöffneten Entwicklertools zeigt. Diese Werkzeuge sind bei jedem Browser dabei; ohne sie wäre das Erstellen von Webseiten (und das Finden von Fehlern) unendlich viel schwieriger.

  • Der grüne Rahmen umfasst die Namen der nachgeladenen Dokumente
  • Die beiden orangen Rahmen zeigen den Text der Webseite: links, so wie wir die Webseite sehen; rechts, so wie er vom Webserver geliefert wird. Beispielsweise umfassen die <p></p>-Paare rechts jeweils einen Absatz (engl. „paragraph“) des Artikels.

Bei DNIP und anderen Angeboten ohne Paywall wird allen Leserinnen derselbe Text zurückgeliefert, egal ob eingeloggt oder nicht.

Erklärung in der Bildunterschrift
Ein DNIP.ch-Artikel, wie er bei aktivierter Entwicklungsumgebung des Browsers erscheint. Links ist der Artikel zu sehen, wie ihn Leserinnen sehen würden; rechts sind die Informationen zu sehen, die der Webbrowser vom Webserver erhalten hat. Rechts findet sich derselbe Text als HTML-Quelltext, also so, wie es der Browser vom Webserver erhalten hat. (Die Rahmen und Pfeile sind natürlich zur Hervorhebung der entsprechenden Inhalte darüber gelegt und nicht Teil des Screenshots.)

Beispiel: Soft Paywall (NZZ)

Bei einer Soft Paywall, wie sie beispielsweise die NZZ einsetzt, wird auch allen Nutzerinnen der gesamte Text des Artikels zurückgeliefert. Aber der ebenfalls beim Laden der Seite zurückgelieferte JavaScript-Code blendet dann allen Text nach den ersten paar Sätzen aus, wenn man nicht fürs Abo bezahlt hat.

  • Die orangen Rahmen zeigen wieder den Text des ersten Abschnitts.
  • Der violette Rahmen umfasst den Text nach dem ersten Abschnitt. Dieser wird vom NZZ-Webserver ebenfalls allen Nutzerinnen bereitwillig und ungefragt zurückgeliefert.
  • Der Scrollbalken im hellblauen Rahmen weist darauf hin, dass die Inhalte weitergehen. Die Abschnitte sind also nur auf dem Screenshot abgeschnitten.

Der Vorteil einer Soft-Paywall ist, dass die Crawler der Suchmaschinen „automatisch“ den gesamten Text erhalten und so problemlos nach allen im Artikel genannten Stichworten gesucht werden kann. (Solange man keine weiteren Massnahmen ergreift, erhalten natürlich alle Crawler den Text, nicht nur die der Suchmaschinen.)

Erklärung in der Bildunterschrift
Ein NZZ-Artikel. Es wird nur der erste Absatz gezeigt, obwohl der gesamte Artikeltext zurückgeliefert wird. Der Rest wird einfach ausgeblendet.

Beispiel: Hard Paywall (Tages-Anzeiger)

Die Tamedia-Blätter setzen auf eine Hard Paywall: Das heisst, es werden wirklich nur die ersten paar Sätze zurückgeliefert. Hier sehen wir im orangen Rahmen rechts zwar drei Punkte der Aufzählung, sichtbar sind aber nur die ersten 1½ (links; unten ausgeblendet).

Wir sehen aber insbesondere, dass der Rest des Artikeltexts überhaupt nicht zurückgeliefert wird, symbolisiert durch das violette Kreuz über dem HTML-Code.

Beim Tages-Anzeiger bekommen also nur die Abonnentinnen den gesamten Text zugestellt.

Der „In Kürze“-Block zu Beginn ist nicht nur für uns Leser:innen gedacht, sondern soll mutmasslich auch möglichst viele Stichworte für die Suchmaschinen liefern. (Ob der Tagi gewissen Crawlern von Suchmaschinen auch den gesamten Text zurückliefert, haben wir nicht überprüft.)

Erklärung in der Bildunterschrift
Ein Tages-Anzeiger-Artikel. Hier wird nur der Aufmachertext zurückgeliefert, solange man als nicht eingeloggter „Normaluser“ auf den Artikel zugreifen will.

Wie blockiert man KI-Crawler?

KI-Crawler wie auch alle andere Crawler blockiert man am einfachsten mit einer harten Paywall: Dann kommt niemand an den eigentlichen Artikelinhalt, ausser natürlich den zahlenden und eingeloggten Abonnent:innen.

Wer aber eine weiche (oder gar keine) Paywall hat, hat immer noch Möglichkeiten:

  • robots.txt, das «Fahrverbotsschild für Webcrawler»: Vor 30 Jahren waren Webserver noch deutlich schwachbrüstiger als heute. Einige Webcrawler überlasteten diese ersten Webserver mit der Anzahl ihrer Abfragen. Dies war einer der Gründe, wieso der sogenannte «robots exclusion standard», ein Gentlemen’s Agreement zwischen Webservern und Crawlern, ins Leben gerufen wurde, mit denen man Crawlern signalisieren kann, wie sie sich auf dem Webserver zu verhalten hätten. Die meisten Crawler halten sich an diese Hinweise, auch KI-Crawler. Aber die Details sind etwas komplizierter (auch Perplexity soll sich gemäss einigen Medienunternehmen früher nicht daran gehalten haben).
  • Aktive Crawler-Abwehr: Die meisten Crawler laufen mit einem öffentlich sichtbaren Namensschild durchs Web; Webserver könnten ihnen also ganz einfach das digitale Äquivalent eines Hausverbots erteilen. Auch diejenigen, die ohne Namensschild herumlaufen, kann man meist anhand ihres Verhaltens oder der verwendeten IP-Adresse erkennen. Es gibt mehr oder weniger ausgeklügelte Filterlisten im Internet, anhand derer man diese Webcrawler identifizieren und sperren kann.

Kurz: Mit einer harten Paywall hält man sich alle Crawler zuverlässig vom Leib; bei weicher Paywall oder ganz ohne ist es immer noch sehr einfach, die meisten Crawler fernzuhalten.

Was macht der Einsiedler Anzeiger?

Der Einsiedler Anzeiger verwendete scheinbar eine weiche Paywall: Beim Laden eines Artikels ist oft erst kurz der gesamte Artikeltext zu sehen, bevor dieser dann von einer Aufforderung zum Login oder Abonnement ersetzt wird.

Der einfachste Weg für den Einsiedler Anzeiger wäre gewesen, mittels dem oben erwähnten robots.txt ein «Fahrverbotsschild» für KI-Crawler aufzustellen. Mit dem essenziellen Online-Forschungstool Wayback Machine des Internet Archive haben wir herausgefunden, dass der Einsiedler Anzeiger zwischen 9. Oktober und 10. November 2024 ein solches eingerichtet hat, also nach Erscheinen des NZZ-Artikels.

User-agent: *
Disallow: 
Allow: /
Sitemap: https://www.einsiedleranzeiger.ch/sitemap.xml
User-agent: grapeshot 
Disallow: 
User-agent: Ai2Bot
Disallow: /
User-agent: Ai2Bot-Dolma
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Applebot
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
‍User-agent: Claude-Web
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: Diffbot
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: facebookexternalhit 
Disallow: /
User-agent: FriendlyCrawler
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: GoogleOther
Disallow: /
User-agent: GoogleOther-Image
Disallow: /
User-agent: GoogleOther-Video
Disallow: /
User-agent: iaskspider/2.0
Disallow: /
User-agent: ICC-Crawler
Disallow: /
User-agent: img2dataset
Disallow: /
User-agent: ImagesiftBot
Disallow: /
User-agent: ISSCyberRiskCrawler
Disallow: /
User-agent: Kangaroo Bot
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: Meta-ExternalFetcher
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: OpenAI-GPT-3
Disallow: /
User-agent: omgili
Disallow: /
User-agent: omgilibot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: PetalBot
Disallow: /
User-agent: Scrapy
Disallow: /
User-agent: Sidetrade indexer bot
Disallow: /
User-agent: Timpibot
Disallow: /
User-agent: VelenPublicWebCrawler
Disallow: /
User-agent: Webzio-Extended
Disallow: /
User-agent: YouBot
Disallow: /
Die aktuelle robots.txt-Datei des Einsiedler Anzeigers weist viele KI-Bots ab.

Zum Vergleich: Die Republik.ch zum Beispiel hat alle wichtigsten KI-Crawlern (Meta, OpenAI, Anthropic etc) zu verstehen gegeben: Don’t look, don’t touch. Hingegen dürfen sich Suchmaschinen-Bots weiterhin bei den Republik-Artikeln bedienen und diese indexieren.

Rechtliche Lage

In Deutschland gibt das Urheberrecht (wie auch andere EU-Staaten) folgende Bestimmung vor: Theoretisch dürfen die Crawler abgrasen, ausser man wehrt sich aktiv dagegen. Es braucht einen maschinenlesbares Opt-Out, also die Regieanweisung für den Nicht-Zugriff auf Inhalte. Dies könnte theoretisch auch im Impressum festgehalten sein, doch darauf springen die Crawler meist nicht an.

Effektiver ist da das Textfile robots.txt. (Man könnte jetzt gemäss c’t auch alle Blockwörter noch irgendwie hinterlegen, wie „nackt“ oder „pinkeln“, um zu verhindern dass man im Korpus von Google landet. Denn Google filtert solche Wörter automatisch),

In der Schweiz gibt es noch keine klare Bestimmung oder Rechtsprechung, denn das Training der Modelle bedeutet noch kein unmittelbare 1:1 Verwendung von urheberrechtlich geschütztem Material. Erst eine (fast) unveränderte Reproduktion der Inhalte würde gegen das bestehende Urheberrecht verstossen. Am effektivsten beugt man wie gesagt technisch vor mit maschinenlesbaren Anweisungen.

Die Befürworter des Leistungsschutzrechts (Verlegerverband Schweizer Medien bestehend aus den Grossen wie die NZZ, CH Media, Tagesanzeiger und Ringier) möchte die KI-Modelle noch in der Vorlage integriert sehen, die offenbar immer noch ausgearbeitet wird. Jüngste Aussagen von SVP-Bundesrat Albert Rösti deuten ebenfalls darauf hin. Am 5. Forum der Westschweizer Medien sagte er, dass die private Medien nicht durch den Staat gerettet werden können, sondern durch die Regulierung der Internetgiganten (sprich: durch das Leistungsschutzrecht) und eine allfällige KI-Regulierung (inwiefern Medien von stärkeren Digitalgesetzen gegenüber Big Tech-Unternehmen direkt profitieren sollen, bleibt unklar).

Die NZZ-Journalist:innen hätten ohne Weiteres kurz innehalten können bei der «KI-Vorführung» von FDP-Ständerätin Petra Gössi. Und sich fragen können: Auf welcher Datenbasis folgt der Zugriff des Perplexity-Chatbots? Und hat der Einsiedler Anzeiger genügend technische Anweisungen gegeben an die Crawler?

Stattdessen blieben die Journalist:innen perplex ab der Perplexity-Vorführung (pun intended). Und hatten entweder keinen Instinkt, diesen Sachverhalt genauer zu recherchieren. Oder aus politisch-ideologischen Gründen dies unterlassen.

Wir fragen uns: Stehen hier die strategischen Verlagsinteressen der NZZ etwa über der Recherchequalität?

Argumentationsfutter für das Leistungsschutzrecht?

Wir können die Frage wohl nicht eindeutig beantworten, doch Fakt ist: Der Bundesrat möchte laut Schweizer Verlegerverband im ersten Halbjahr 2025 eine Leistungsschutzrechtvorlage präsentieren, die sich auch zur «KI-Frage» äussern soll.

Auch durch KI-Systeme werden Auszüge (Snippets) aus journalistischen Inhalte genutzt, ohne die Medien dafür zu entschädigen. Um dieser Entwicklung entgegenzuwirken und die journalistischen Inhalte zu schützen, müssen bestehende Lücken des Urheberrechts konsequent geschlossen werden. Das Leistungsschutzrecht ist also auch eine essenzielle Komponente zur Regulierung von KI-Sprachmodellen.

Schweizer Verlegerverband

Und die NZZ ist Teil dieses Verbands.

Und bei der Argumentation für ein Leistungsschutzrecht auf KI käme es doch sehr gelegen, wenn sich im Gehirn der Politiker:innen festsetzen würde, dass die KI «irgendwie magisch» technische Schutzmechanismen umgehen könnte.

Obwohl wir jetzt wissen, dass dies nicht so ist.

Mehr wissen

dnip.ch mit Deiner Spende unterstützen

Wir wollen, dass unsere Inhalte frei verfügbar sind, weil wir es wichtig finden, dass möglichst viele Menschen in unserem Land die politischen Dimensionen der Digitalisierung erkennen und verstehen können.

Damit das möglich ist, sind wir auf deine Unterstützung angewiesen. Jeder Beitrag und sei er noch so klein, hilft uns, unsere Aufgabe wahrzunehmen.

2 Antworten

  1. Danke, entlarvend, wie einfach solche Artikel «hinterfragt» werden können.
    Eigentlich müsste man die NZZ sogar um eine Gegendarstellung bitten oder noch besser zwingen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Weitere Beiträge