Suche
Close this search box.

Die dunklen Daten-Geheimnisse der KI

KI-generiertes Symbolbild, wie einem Roboter Daten eingetrichtert werden
KI-generiertes Symbolbild, wie einem Roboter Daten eingetrichtert werden

Generative Sprachmodelle wie beispielsweise ChatGPT erwecken den Eindruck, Neues zu erzeugen. Dabei kombinieren sie nur Muster neu. Wobei: Diese Kombinationen sind nicht immer wirklich neu. Mit ein bisschen Geschick kann man die Sprachmodelle dazu bringen, viel über ihre ansonsten geheimen Trainingsdaten auszuplappern. Diese Einblicke in die dunklen Hintergründe dieser Daten werden unseren Umgang mit Privatsphäre, Urheberrecht und Geschäftsmodellen des Journalismus neu definieren.

Kinder sind effizientere KIs

Um ein Sprachmodell wie z.B. ChatGPT zu trainieren, muss man es mit rund 1000 Mal mehr Worten füttern, als ein Kind in seinen ersten 18 Jahren zu hören bekommen kann, auch wenn man unablässig an es heranredet. Nachfolger wie GPT-4 bekommen wohl nochmals ein Vielfaches davon vorgesetzt.

Also: Hut ab vor allen Kindern! Sie sind die effizienteren KIs…

Nach nur einem Bruchteil des Trainings haben Kinder ein besseres Verständnis der Welt und was sie im Innersten zusammenhält als ihre digitalen Imitate; auch wenn sie gewisses Faktenwissen immer noch nachschlagen müssen.

Die dunkle Seite der Daten

Woher kommen diese Daten? Die meisten KI-Firmen geben sich da zurückhaltend. Doch 2020, als GPT-3, der kleine Bruder von ChatGPT, vorgestellt wurde, gab sich OpenAI, die Firma hinter ChatGPT und Co., noch etwas offener: Die Trainingsdaten würden zu gut 80 % aus Webinhalten zusammensetzen (hier ein Versuch, diese zu rekonstruieren), zu 16 % aus “Büchern” (mutmasslich ein Teil davon unautorisiert), garniert mit 3 % Wikipedia.

Wie Bilddaten in Bild-KIs kommen, hat der Bayrische Rundfunk dokumentiert. Und auch die Probleme dabei erläutert.

Einige dieser Texte (und im Falle von Bildgeneratoren auch Bilder) enthalten Gewaltdarstellungen und anderes verstörende Material. Diese werden dann von Minderjährigen und in Billiglohnländern unter zum Teil prekären Arbeitsbedingungen klassifiziert.

Was wissen wir über die Daten?

Neben den bereits oben erwähnten Rekonstruktionsversuchen aus publizierten Informationen haben Forscher auch versucht, aufgrund der zurückgelieferten Antworten von ChatGPT und Co. auf die Trainingsdaten zu schliessen.

So hat eine internationale Forschergruppe (u.a. mit ETH-Beteiligung) es geschafft, Trainingsdaten im grossen Stil von ChatGPT selbst wieder ausgeben zu lassen. Ihr Trick: Sie weisen ChatGPT an, dasselbe Wort endlos zu wiederholen. ChatGPT, wie viele andere dieser generativen Sprachmodelle (LLM, Large Language Model), können aufgrund ihrer Funktionsweise mit solchen sich wiederholenden Sequenzen schlecht umgehen. (Wer Lust auf mehr Tricks hat: Eva Wolfangel hat einen ganzen Vortrag damit gefüllt.)

Sehr vereinfacht gesagt, haben diese Sprachmodelle beim Generieren des nächsten Wortes zu wenig “interessante” Informationen im Kontext, aus denen die nächste Vorhersage gemacht werden kann. Und deshalb gibt es wenig Gründe, von der 1:1-Wiedergabe eines gelernten Musters abzuweichen, welches irgendwie dazu passt.

Wenn man ChatGPT im grossen Stil oder automatisiert nutzen will, kostet das; in der Grössenordnung eines Rappens pro gesendeter oder empfangener Schreibmaschinenseite Text. Mit OpenAI-Rechenzeit im Wert von $200 (etwa 10’000 gedruckte Seiten) konnten die Forscher 10’000 1:1-Passagen von mindestens 50 Wörtern Länge extrahieren, inklusive personenbezogene Informationen wie Post- und Email-Adressen oder Telefonnummern.

Anders gesagt: In etwa auf jeder Schreibmaschinenseite ChatGPT-Text findet man eine lange Sequenz von Wörtern, die 1:1 wiedergegeben wird, wenn man richtig fragt.

Es gibt auch andere Möglichkeiten, um fast wortwörtlich an Texte aus dem Trainingsmaterial zu kommen, inklusive urheberrechtlich geschützte Texte. Ähnliches gilt für Bilder, bei denen z.T. auch Umschreibungen zur Reproduktion von Figuren und Bildern aus dem Trainingsset führen kann.

Was passiert beim Training?

Der Trainingsprozess von ChatGPT habe ich hier genauer beschrieben. An dieser Stelle interessieren uns die Details aber nicht. Auf einer abstrakten Ebene passiert beim KI-Training etwas Ähnliches wie beim komprimierten Speichern eines Bildes als JPEG: Das Foto so abzuspeichern, dass es 1:1 wiederhergestellt werden könnte, würde bei heutigen Kameras mit Abermillionen von Bildpunkten auch Abermillionen von Bytes benötigen. Viele Fotos für den Alltagsgebrauch werden aber heute in einigen 100 Kilobytes oder wenigen Megabytes gespeichert.

Damit das funktioniert, wird nur das Essenzielle aus dem Bild gespeichert. Das Bild soll gleich aussehen, aber “Unwichtiges” soll eliminiert werden. Das Unwichtige automatisiert zu erkennen, das ist die hohe Kunst. Aber das Ziel—sowohl bei der Bildkompression als auch beim KI-Training—ist es, unwichtige Details und Rauschen zu eliminieren.

Das gelingt natürlich nicht perfekt, weder bei Bildern noch bei KI. Falls es je eine perfekte Bildkompression oder ein perfektes KI-Training gäbe, würde genau das Irrelevante weggelassen. Im Umkehrschluss bedeutet das, dass wenn Textstellen noch 1:1 vorhanden sind, diese Information unnötig ist und damit der eigentliche Lern-/Abstraktionsprozess noch nicht stattgefunden hat. Lasst mich dazu kurz ausholen.

Blooms Taxonomie (Vanderbilt University Center for Teaching, CC-BY-2.0)

Blooms Lernzieltaxonomie ist eines der Modelle, mit denen menschliches Lernen beschrieben wird. Wie jedes Modell der menschlichen Psychologie ist es nicht perfekt. Und als Modell für menschliches Lernen ist es natürlich noch weniger auf KI ausgelegt. Aber die Gesetze und Regelungen rund um Urheberrecht und Plagiate—also die, die uns hier interessieren—wurden auch geschrieben für die menschlichen Lern- und Schaffensprozesse. Also das, was Blooms Taxonomie beschreibt.

Wenn also ein Mensch Text (oder Kunst oder …) sich 1:1 merkt, ist er in der Stufe “remember” (Erinnerung bzw. Auswendiglernen). Solange er etwas davon 1:1 wiedergibt, ist es eine Kopie, oder eben ein Plagiat. Erst wenn der Mensch das Gelernte verstanden hat (“understand”) und es anwenden (“apply”), analysieren und bewerten kann, kann er damit auch etwas Neues schaffen (“create”).

Kurz: Eine 1:1-Wiedergabe ist ein Plagiat bzw. potenziell illegale Kopie, egal ob sie von Mensch oder Computer/KI erzeugt wird.

Foone Turing geht mit einem Gedankenexperiment noch weiter: Wenn diese 1:1-Replikation via KI das Urheberrecht nicht verletzt, könnte man ganze Filme durch so eine “Fast-1:1-KI” hindurchlassen. Resultat: Ein gefühlt identischer Film mit kleinen Unterschieden hier und da, aber komplett KI-generiert und damit kein urheberrechtsfrei verteilbar…

Was wissen die Daten über uns?

Kann eine App aufgrund der Fotos eines Paares ein Bild des zukünftigen gemeinsamen Babys generieren? Bei potenziellen Eltern ruft die App “Remini” je nachdem Vorfreude auf das Baby oder Grusel über die Persönlichkeitsinvasion hervor. Und natürlich ist die Vorhersage schwer zu verifizieren, kann aber potenziell wie viele andere biometrischen Daten missbraucht werden.

Deutlich einfacher nachzuprüfen sind folgende Forschungsergebnisse: So hat eine andere ETH-Forschergruppe herausgefunden, dass die Herkunft von Personen erstaunlich gut aus ihren geschriebenen Texten herleitbar ist; so eine Art globales Chuchichästli-Orakel. (Das Chochichästlli-Orakel fragt nach dem Dialektwort bzw. der Aussprache von 10 Begriffen und liefert im Gegenzug den Ort in der Schweiz, in dem man aufgewachsen ist. Bei vielen Leuten ist das auf 20 km genau.)

Eine weitere Forschergruppe, diesmal ohne ETH-Beteiligung, kann Fotos rein aufgrund ihres Bildinhalts ziemlich genau geolokalisieren. Selbstverständlich, ohne dabei auf die von in vielen Smartphones in die Fotos eingebetteten GPS-Koordinaten zurückgreifen zu müssen.

«To be, or not to be»

Aber auch westliche Schauspieler und Drehbuchautoren sollten zur Fütterung ihrer Werke in die KIs der Hollywood-Studios gezwungen oder durch diese ersetzt werden. Dies führte letztes Jahr zu monatelangen Streiks im US-Film- und Fernsehbusiness, die US-Produktionen grossräumig lahmlegte. (Die Einigung läuft darauf hinaus, dass der Mensch die Gage für die Aktivitäten seines KI-Klons erhält.)

Im streikfreundlichen Deutschland passiert etwas Ähnliches gerade im Zeitungsbereich, aber es scheint niemanden zu interessieren.

Die Springer-Kooperation

Wir werden die Möglichkeiten des durch KI gestärkten Journalismus ausloten – um Qualität, gesellschaftliche Relevanz und das Geschäftsmodell für Journalismus auf die nächste Stufe zu heben.

Matthias Döpfner in der Springer-Medienmitteilung zur Kooperation mit OpenAI

Axel Springer, bekannt u.a. durch seine Bild-Zeitung, ist ein Medienhaus, das gerne polarisiert. Und zwar auch gerne in einer Linie mit dem Springer-Mehrheitsaktionär KKR, einem der grössten Fossil-Investoren. Da kann es dann schon einmal vorkommen, dass Lobby-Interessen breiten Raum einnehmen, weit entfernt von objektiver Berichterstattung.

Es erscheint deshalb fraglich, ob Springer dasselbe unter «Journalismus auf die nächste Stufe heben» versteht wie andere Personen. Entsprechend wird dieses Vorhaben andernorts sehr kritisch gesehen.

«Das Geschäftsmodell von Journalismus auf die nächste Stufe zu heben» und dass die Verlage «von fortschrittlicher KI-Technologie und neuen Einnahmemodellen profitieren» sollen, klingt danach, dass Journalisten in den Springer-Medien bald zumindest teilweise durch ChatGPT ersetzt werden sollen. Erstaunlich ist deshalb aber vor allem, dass die dortigen Journalisten nicht aufbegehren, anders als die Hollywood-Autoren, denen ein ähnliches Schicksal drohte.

Aber zumindest beschert der Deal etliche Millionen in Springers Kassen, mutmasslich auch als Copyright-Abgeltung für bereits früher von OpenAI genutzte Springer-Artikel.

Was bedeutet das?

Fake News

Die Auswirkungen auf Fake News und Desinformation sind noch kaum abzuschätzen. Aber das hängt vor allem an den Menschen hinter den Tools: Ob sie die Verantwortung für ihr Handeln übernehmen wollen oder nicht. Und ob KI-Tools effizienter sind als billige Arbeitskräfte aus dem globalen Süden.

Urheberrecht

ChatGPT kann Texte erzeugen, die—wenn sie ein Mensch schreiben würde—eindeutig als Plagiat angesehen würden. MidJourney und DALL-E können auch ohne konkrete Aufforderung Bilder erzeugen, die urheberrechtlich geschütztem Bildmaterial zum Verwechseln ähnlich sehen.

Folgende Interviewstelle mit MidJourney-Gründer David Holz dürfte in einem allfälligen Gerichtsverfahren ziemlich sicher vorgelegt werden. Sie dürfte sich aber kaum wesentlich von der Einstellung anderer KI-Unternehmen unterscheiden:

Did you seek consent from living artists or work still under copyright?

No. There isn’t really a way to get a hundred million images and know where they’re coming from. It would be cool if images had metadata embedded in them about the copyright owner or something. But that’s not a thing; there’s not a registry. There’s no way to find a picture on the Internet, and then automatically trace it to an owner and then have any way of doing anything to authenticate it.

Forbes-Interview von Rob Salkowitz mit MidJourney-Gründer und -CEO David Holz

Auch OpenAI räumt ein, dass KI-Training ohne urheberrechtlich geschütztes Material unmöglich sei.

Die New York Times hat Klage gegen OpenAI und Microsoft eingereicht, dass letztere unautorisiert urheberrechtlich geschützte Texte der New York Times nutzten. Diese Klage war schon länger erwartet worden. Vor einem Jahr gingen viele noch davon aus, dass dies möglicherweise unter die amerikanische Fair-Use-Doktrin fallen würde. Durch die jetzt gezeigten 1:1-Reproduktionen und die Einigungen mit AP und Springer hat sich das Blatt aber möglicherweise zugunsten der Klägerin gewendet. Und wenn diese nicht Erfolg hat: Gut möglich, dass klagefreudige und gut vernetzte Konzerne wie Disney oder Vertreter aus der Musikindustrie sich irgendwann vor Gericht oder mit parlamentarischem Lobbying durchsetzen werden.

Einige Kritiker des aktuellen Urheberrechts erhoffen sich von einer solchen Klage zwischen Giganten sogar eine Komplettrevision des Urheberrechts. Wahrscheinlicher aber ist, dass es kleine Anpassungen geben wird, damit zumindest die Trainingsdaten nicht für die oben angesprochenen (Fast-)1:1-Kopien eingesetzt werden können.

Löschen von illegalen Daten

Urheberrechtlich geschützte Daten wieder aus dem Trainingsdatensatz zu löschen, ist aufwändig und teuer: Da der Trainingsprozess nicht umkehrbar ist, läuft zuverlässiges “Vergessen” also häufig auf vollständiges Neutraining herausläuft. Dasselbe gilt für Material, das gar nie hätte produziert werden dürfen oder gar nie hätte an die Öffentlichkeit kommen sollen. So lange da den KI-Unternehmen freie Hand gelassen wird, sind solche Löschungen zur Zeit aber noch schwierig bis unmöglich.

Schutz der eigenen Daten

Wer wissen will, ob seine Bilder und Texte zum Training von generativer KI genutzt wurden, wird zumindest aktuell noch im Dunkeln gelassen. Es gibt aber Untersuchungen, welche die Datensätze zu reproduzieren versuchen. Einige Datensätze sind auch öffentlich zugänglich. Was dann aber genau damit passierte, bleibt meist ein Geheimnis.

Gewisse KI-Anbieter bieten inzwischen Möglichkeiten, wie man das Erfassen (“Crawlen”) von neuen Bild- und Textdaten verhindern kann, indem sie sich dem Webserver gegenüber zu erkennen geben und Sperrwünsche des Webservers (“robots.txt”) Folge leisten. Die bisher gesammelten Trainingsdaten sind davon nicht betroffen (siehe auch oben); ebenso nicht alle Firmen und alle Wege, wie diese Daten zu den Firmen kommen. Viel mehr als ein Trostpflästerchen ist es also aktuell nicht wirklich, solange die Gesetzeslage weiterhin unklar ist.

KI-Empfehlungen

Leser:innen, welche diesen Artikel gelesen haben, haben auch folgende informativen Artikel kostenlos gelesen. (Diese Empfehlungen stammen nicht von einer KI…)

Weiterführende Literatur

dnip.ch mit Deiner Spende unterstützen

Wir wollen, dass unsere Inhalte frei verfügbar sind, weil wir es wichtig finden, dass möglichst viele Menschen in unserem Land die politischen Dimensionen der Digitalisierung erkennen und verstehen können.

Damit das möglich ist, sind wir auf deine Unterstützung angewiesen. Jeder Beitrag und sei er noch so klein, hilft uns, unsere Aufgabe wahrzunehmen.

2 Antworten

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Weitere Beiträge

Rage Against The Machine

Es geht um drei Millionen elektrische Zahnbürsten. Sie sollen die Website einer Schweizer Firma angegriffen und für Stunden vom Netz

Weiterlesen »