DNIP Briefing #18: Lügen und Bücherklau

Bücherregal
Foto: Caleb Woods auf Unsplash

Die Redaktion präsentiert jeden Dienstag die Geschichten, die sie bewegt, aufgerüttelt oder zum Nachdenken angeregt hat.

Stell dir vor, jemand durchsucht heimlich die grösste Bibliothek der Welt, reisst Millionen Bücher aus den Regalen und lädt sie auf eine Maschine, die schreiben lernen soll. Genau das, so zeigen es Gerichtsdokumente aus den USA, hat Meta getan. Weil es zu teuer schien, die Rechte an den Büchern zu kaufen, griffen die Entwickler des Llama-3-Modells stattdessen auf LibGen zurück – ein Piratenarchiv mit Millionen Büchern. Bewusst: In den Akten heisst es, «MZ», wohl Mark Zuckerberg, habe sein Okay gegeben. Bücher, hiess es intern, seien wichtiger als Webdaten. Das deckt der Programmierer und Reporter Alex Reisner in Atlantic auf. Ausserdem veröffentlicht er zwei Suchmaschinen, mit denen sich nachvollziehen lässt, womit die Sprachmodelle trainiert werden: Bücher und wissenschaftliche Arbeiten, Filme und Fernsehen. Ein Fenster in den Maschinenraum der KI.

Weitergabe von Daten ohne Einwilligung

Um die missbräuchliche Verwendung von persönlichen Daten gehts auch im nachfolgenden Fall: In UK wurde Facebook (bzw. Meta) dafür verurteilt und darf zumindest bei der Klägerin deren Daten nicht mehr zur Selektion von Werbung verwenden. Die Basis der Klage ist ein Gesetz in der UK, welches bei Direct Marketing den Adressaten das Recht zum Widerspruch einräumt. Facebook hatte sich auf den Standpunkt gestellt, dass es nur Zielgruppen mit mindestens 100 Mitgliedern adressiert und man daher nicht von Direct Marketing sprechen kann. Das Gericht folgte aber der Argumentation der Klägerin. Direkte Auswirkungen hat das Urteil nur auf diese selbst, es öffnet aber die Tür für weitere entsprechende Klagen.

Auch die US-regierungsnahe Plattform Twitter (auch als X bekannt) verwendet übrigens die Daten der Posts für KI-Trainingszwecke. Der EDÖB propagiert Eigenverantwortung: Wer das nicht möchte, soll die Funktion selbst ausschalten. (Ebay hat übrigens in seinen neuen Datenschutzbestimmungen auch eine ähnliche Klausel und Opt-Out-Option.)

«Du sollst nicht lügen»

Die meisten unserer Leser:innen dürften schon mal nach ihrem Namen gegoogelt haben, um herauszufinden, was «das Internet» denn so über sie weiss.

Die moderne Form davon ist, einen der unzähligen KI-Chatbots nach sich zu fragen. Das hat auch ein norwegischer Vater gemacht. Um so erstaunter muss er gewesen sein, als ChatGPT nicht nur (korrekte) Details zu Herkunft und Familie nannte, sondern auch – erstunken und erlogen – dass er wegen Mordes an seinen Kindern 21 Jahre hinter Gittern gesessen sei.

Zusammen mit Noyb verklagt er nun OpenAI, dass diese Daten verschwinden müssten. Und zwar nicht nur die Ausgabe dieser Information verhindert wird, sondern die Daten ganz aus dem Speicher des LLM-Sprachmodells gelöscht werden müssten. Doch das ist gar nicht so einfach.

Freie Information gegen Desinformation

Immer mehr gut recherchierte Informationen verschwinden hinter Paywalls. Gleichzeitig nimmt Clickbait, Desinformation und KI-Gebrabbel zu. Wer sich hunderte von Abonnements für die Informationen hinter den Paywalls nicht leisten kann, wird also mehr und mehr von Fake News unterschiedlichster Art bombardiert.

So berichtet NewsGuard, welche Webseiten nach Wahrheitsgehalt beurteilen, davon, dass bei gewissen Fragen an Chatbots bis zu einem Drittel der Antworten falsch seien; basierend auf einem grossen russischen Netzwerk an Fake-News-Webseiten.

So alarmierend auch der Titel klingt, das Problem scheint nicht zu sein, dass die Inhalte dieser Webseiten in die Sprachmodelle eintrainiert wurden (wo sie eben ganz schwer wieder herauszubringen wären), sondern dass diese Webseiten von der Live-Websuche zurückgeliefert werden und nur für die Antworten in dieser Chatbot-Session verwendet werden. Trotzdem muss das Problem angegangen werden. (Und NewsGuard verspricht sich mit dem Artikel wohl zusätzliche Kunden.)

Wired hat nun einen ersten Schritt gemacht: Reportagen, die auf mittels «Freedom of Information Act»-Anfragen («FOIA») erhaltenen Regierungsdokumenten beruhen, werden künftig ohne Paywall veröffentlicht.

Und schliesslich:

dnip.ch mit Deiner Spende unterstützen

Wir wollen, dass unsere Inhalte frei verfügbar sind, weil wir es wichtig finden, dass möglichst viele Menschen in unserem Land die politischen Dimensionen der Digitalisierung erkennen und verstehen können.

Damit das möglich ist, sind wir auf deine Unterstützung angewiesen. Jeder Beitrag und sei er noch so klein, hilft uns, unsere Aufgabe wahrzunehmen.

2 Antworten

  1. Zum Entscheid des EDÖB in Sachen X (vormals Twitter) bzw. KI Grok:
    Gemäss Art. 30 Abs. 2 Bst. a DSG ist es eine Persönlichkeitsverletzung, wenn Personendaten entgegen den Grundsätzen von Art. 6 und 8 DSG bearbeitet werden. Art. 6 Abs. 2 DSG lautet wie folgt: „Personendaten dürfen nur zu einem bestimmten und für die betroffene Person erkennbaren Zweck beschafft werden; sie dürfen nur so bearbeitet werden, dass es mit diesem Zweck vereinbar ist.“ Die Nutzung von Personendaten, die jemand auf Twitter veröffentlicht hat zum Zweck des Trainings einer KI ist klar erkennbar nicht zweckkonform und mithin eine Persönlichkeitsverletzung. Es ist in der vorliegenden Konstellation nicht Aufgabe der Betroffenen, Widerspruch einzulegen; die zweckwidrige Verwendung von Personendaten ist kein „opt out“ Fall, sondern bedarf der Einwilligung der Betroffenen. Der Befund des EDÖB ist nicht nachvollziehbar und m.E. rechtlich unhaltbar.

    1. Es wäre schön, wenn das so gehandhabt werden könnte. Jedoch stimmt man für die Nutzung von Twitter (bzw. X) deren Datenschutzbestimmungen zu, deren aktuelle Version unter «3. Weitergabe von Daten» Folgendes stehen haben:

      Abhängig von Ihren Einstellungen stellen wir auch bestimmten Dritten Daten zur Verfügung, damit sie uns beim Angebot oder Betrieb unserer Produkte und Dienste unterstützen.

      So funktionieren leider ganz viele Onlinedienste.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Weitere Beiträge

Vogt am Freitag: Blindflug

Ab nächstem Dienstag müssen bestimmte Unternehmen Cyberangriffe auf die eigene Infrastruktur melden – dazu gehören theoretisch auch Microsoft und Google.

Weiterlesen »