Die KI ChatGPT und die Herausforderungen für die Gesellschaft

Vor inzwischen zwei Monaten stellte OpenAI sein GPT-3-basiertes Chatsystem ChatGPT zu Tests zur Verfügung. Es ist erstaunlich. Die Implikationen davon ebenfalls.

ChatGPT und andere KI-Technologien werden Ihnen in den nächsten Monaten vermehrt begegnen, möglicherweise in einer der folgenden Formen:

Sie wollen Unterstützung durch KI-Systeme für Texte, Grafiken, Entscheidungen;
jemand will Ihnen oder Ihrer Firma eine KI-Lösung verkaufen, die Ihre wichtigsten Probleme lösen soll (oder Sie wollen sich auf die Suche nach Lösungen machen); oder
Sie müssen sich bei einer Firma oder Behörde durch deren „benutzerfreundliches“ KI-Chat-Portal kämpfen.

In allen diesen Fällen hilft es, wenigstens etwas Einblick in die Technik hinter ChatGPT und vielen anderen System für die Künstliche Intelligenz gehabt zu haben, insbesondere Maschinelles Lernen („machine learning“). Die neue Technologie ist zu wichtig, um sie zu ignorieren.

Wie jede neue Technologie werden sich auch im KI-Bereich in den nächsten Monaten und Jahren Rattenfänger und Schlangenölverkäufer tummeln. Auch falls Sie nicht jedes Detail des Artikels verstehen sollten, so sind Sie damit besser gerüstet, um falsche Versprechungen zu enttarnen.

In den vergangenen 12 Monaten haben wir bereits mehrere KI-gestützte Sprachsysteme kommen (und wieder gehen) gesehen. Ende November ging OpenAI mit dem Chatbot «ChatGPT» an den Start.

OpenAI hat eine bewegte Geschichte: So startete OpenAI 2015 als Non-Profit mit grosszügigen Spenden in der Höhe von rund einer Milliarde USD u.a. von Elon Musk und Peter Thiel als langfristige, altruistische Mission. Das Ziel war, dass KI möglichst breit gestreut im Geiste der Freiheit zur Erweiterung des menschlichen Willens beitrage. Ja, der Originaltext ist so pompös! 2019 gaben sie ihren Non-Profit-Status auf („capped-profit“) und bekamen im Gegenzug ein Investment von Microsoft von ebenfalls einer Milliarde USD. (Inzwischen gibt es noch mehr Engagement von Microsoft.)

Hinter ChatGPT steckt das OpenAI-Sprachsystem („Large Language Model„, LLM) «GPT-3», das die Texte aus „einen signifikanten Teil des Internet“ auf 175 Milliarden Zahlen („Parameter“) eingedampft hat. Das so eingedampfte Wissen erlaubt ihm, Texte zu produzieren, die in Struktur und Inhalt an diesen „signifikanten Teil des Internet“ angelehnt sind, die aber durch ihre scheinbare Natürlichkeit und Kompetenz so viel Faszination auslösen. (Mehr zur Funktionsweise weiter unten.)

GPT-3, aktuell der Platzhirsch unter den Sprachmodellen, wird von Microsoft für seinen KI-Hilfsprogrammierer «GitHub Copilot» eingesetzt und eine abgespeckte Version von GPT-3 hilft DALL•E 2 auch beim Sprachverständnis, mit dem es KI-Bilder mit überraschender Präzision erzeugen kann.

Nachdem frühere KI-Chatbots wie Tay oder BlenderBot nach wenigen Tagen Umgang mit Menschen notfallmässig abgeschaltet werden mussten, wollte OpenAI wohl unbedingt vermeiden, dass ChatGPT dasselbe Schicksal ereilt. So schreibt OpenAI, dass beim Design von ChatGPT Wert darauf gelegt worden sei, dass es innerhalb eines Dialogformats Nachfragen ermöglicht, Fehler eingestehen oder falsche Voraussetzungen hinterfragen kann sowie, und darauf scheint OpenAI besonders wert gelegt zu haben, ungeeignete Anfragen zurückweist. Bisher scheinen diese Schutzmechanismen, das KI-Äquivalent hochdosierter Psychopharmaka, erfolgreich dafür gesorgt zu haben, dass sich ChatGPT und die Menschheit noch nicht gegenseitig zerfleischt haben.

Eine ChatGPT-Beispielanwendung ist auch die Unterstützung beim Schreiben von Programmcode sowie beim Verständnis und bei der Fehlersuche. In den letzten Tagen und Wochen haben viele Leute ChatGPT ausprobiert und es Essays, Programme, Beweise und Witze schreiben oder ein ganzes Linux-System nachbilden lassen. Etliches davon auch in perfektem Deutsch, wenn man von seltenen Fall- oder Geschlechtsfehlern absieht.

Schauen wir uns zuerst an, was ChatGPT die letzten Wochen an Output geliefert hat, bevor wir versuchen herauszufinden, ob ChatGPT die Menschheit in eine bessere Welt führen wird.

Was taugt ChatGPT als Informatiker?

Da bei der Ankündigung von ChatGPT seine Fähigkeiten rund um das Programmieren hervorgehoben wurden, beginnen wir doch mit diesen Aspekten.

ChatGPT kann gute Programme schreiben

Ein sehr schönes Beispiel für das Schreiben von Programmen ist dieses Beispiel von Deedy.

Anfrage: „Schreib mir einen Sudoku-Löser“ gefolgt von der Beschreibung der Sudoku-Regeln. Resultat: Ein korrekter Sudoku-Löser.
„Schreibe eine Ausgabefunktion für das Sudoku-Feld“: Auch OK
„Nutze Backtracking“ (eine Optimierung, um aussichtslose Sudoku-Versuche nicht weiter zu verfolgen): Auch 1a gelöst.

Alles in Allem entstand mit wenigen Zeilen ein 150 Zeilen langes, korrektes Sudoku-Program. Hut ab!

Mit zwei kurzen weiteren Anweisungen waren die Programme dann nicht nur in der initialen Sprache „Go“ verfügbar, sondern auch in Java und Python.

ChatGPT schreibt einen Sudoku-Löser und optimiert ihn (Bildquelle: Deedy auf Twitter)

Natürlich kann ChatGPT auch Primzahlen berechnen. Das resultierende Programm ist nicht besonders optimiert: Für jede Zahl zwischen 2 und 101 testet es, ob alle kleinere Zahlen diese Zahl teilen. Andere Nutzer hatten Resultate zurückbekommen, welche nur bis zur Quadratwurzel testeten (wenn eine Zahl nicht prim ist, ist der kleinste Teiler maximal die Quadratwurzel der fraglichen Zahl).

Also bat auch ich ChatGPT, sein Programm zu optimieren:

Primzahlenprogramm und Optimierung, beides von ChatGPT in meinem Auftrag

Auf meine Anfrage wählte es eine andere Optimierung: Abgesehen von 2 und 3 sind alle Primzahlen von der Form 6n±1, weil alle anderen durch 2 oder 3 teilbar sind. Dieser Erkenntnis lag das neue Programm zugrunde, zusammen mit der entsprechenden Erklärung. Grossartig!

Interessant ist auch, welche Idee scheinbar nirgendwo favorisiert wird und meiner Ansicht nach die einfachste Änderung wäre: Anstelle gegen alle Zahlen zu testen, nur gegen die bereits erkannten Primzahlen zu testen, also for j in range(2, i) durch for j in primes zu ersetzen. Wahrscheinlich kam dieses Muster in den Inputdaten nicht (genügend prominent) vor.

Auch ein Zahlenratespiel funktioniert auf Anhieb und lässt sich mit weiteren Anweisungen beliebig anpassen, immer mit passenden Erklärungen, was es da gerade macht.

Selbstverständlich kann es auch auf schweizerdeutsche Anfragen antworten und sich dabei sogar Worte aus meinem Text aneignen. (Naja, „selbstverständlich“ ist etwas hoch gegriffen, ich hatte keine Ahnung, was passierte; es war mein erster Prompt in der Sprache. Ich hatte mich vor einigen Wochen aber am ebenfalls von OpenAI stammenden Spracherkennungsystem Whisper (also Stimme nach Text, eine ganz andere Aufgabe) schon in einer Demo von Lunar Ring positiv von Schweizerdeutschkenntnissen überraschen lassen dürfen.)

Primzahlen auf Schweizerdeutsch. Und in Pascal.

Das Python-Programm funktioniert anstandslos. Auch für die Pascal-Implementation gibt es sicher einen Pascal-Dialekt, der dieses Programm klaglos ausführt (davon gibt es ja fast so viele Varianten wie von Basic).

Mit etwas exotischeren Sprachen wird es aber schon schwieriger.

Manchmal sind die Antworten unvollständig, enden einfach mitten im letzten Satz oder noch früher.

Das Kontextverständnis ist hoch. So ist ChatGPT sofort klar, dass sich die Prompts „Kannst du das auch in Erlang schreiben?“ und „Oder in Emacs-Lisp?“ auf die Primzahlaufgabe weiter oben (und das Umschreiben) beziehen. Die Ausgaben sind aber nur auf den ersten Blick überzeugend: So kennt Erlang keine for-Schleife (nur while) und mein Emacs ist mit den von ChatGPT extra für ihn geschriebenen Code auch nicht wirklich zufrieden.

Ok, ich gebe zu, meine ersten Versuche in beiden Sprachen nach längerer Pause würden wohl noch weniger gut funktionieren und ich bräuchte deutlich länger. Aber ich würde mir wenigstens die Mühe nehmen, das Programm mal auszuprobieren und dann auch nach den Fehlern zu suchen.

Immerhin erweist sich ChatGPT auf Nachfrage als gelehriger Schüler und sieht seine Fehler ein und korrigiert sie eifrig, manchmal fast schon peinlich übereifrig.

ChatGPT kann auch ein Programm erstellen, welches einen vordefinierten Output liefert, beispielsweise „[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]“. Dies erkennt er als Folge der Quadratzahlen, Hut ab! Aber wenn man jede Zahl in dieser Folge verdreifacht, behauptet er weiterhin steif und fest, die Folge zu erkennen. Ich behaupte aber mindestens so steif und fest, dass ChatGPT sich da irrt.

ChatGPT kann böse Programme schreiben

ChatGPT lässt sich aber auch problemlos von der Dunklen Seite der Macht engagieren. Angesichts der gerade laufenden Ransomware-Wellen: Kann ChatGPT auch Ransomware schreiben? Ja, er kann. Zumindest überzeugt es mich, der weder C# noch Windows-Programmierung beherrscht.

Ransomware zu schreiben scheint ganz einfach…

ChatGPT kann Fehler suchen

Eine Eigenschaft, die im Studium meist zu kurz kommt: Code verstehen, wissen, was passiert und wieso es passiert. ChatGPT kann dabei helfen. Links erklärt es, wieso der vorher gepastete Programmcode bei einer bestimmten Eingabe vorzeitig terminiert. Rechts erklärt es, wie ein 8000(!) Zeilen langes C-Programm funktioniert.

Bildquelle: Jason Laster auf Twitter (dort auch mehr Kontext)

ChatGPT kann Fehler machen

Mit Sudoko, Primzahlen, Zahlenraten und Quadratzahlen kommt ChatGPT also klar. Zumindest in Python. Auch scheint es fremden Code erstaunlich gut zu verstehen. Wie sieht es aber bei anderen Standard-Programmieraufgaben aus?

Beim Zusammenzählen von Fliesskommazahlen oder dem Erstellen von Labyrinthen fabuliert ChatGPT fleissig und überzeugend vor sich hin, aber eben völlig falsch. So besteht ChatGPT im Fliesskommabeispiel darauf, dass man mehr als einen Wert gleichzeitig in einem Register speichern könne (kann man nicht) oder will die Fliesskommazahlen addieren, ohne auf die unterschiedliche Positionierung des Kommas Rücksicht zu nehmen. (Von der fehlenden Behandlung der im IEEE-754-Fliesskommastandard definierten, zwingend zu behandelnden Sonderfälle ganz zu schweigen.)

Addition von Fliesskommazahlen funktioniert nur mit Magie; Labyrinthe sind ein auswegloses Unterfangen…

Ebenso weigert sich ChatGPT standhaft, Labyrinthe mit Bewegungsmöglichkeiten zu erstellen. Labyrinthe gibt es in mehreren Ausführungen an:

Mit Ein- und Ausgang am Rande des Labyrinths oder mit Start und Ziel irgendwo innerhalb.
Mit mehreren Pfaden zwischen zwei Punkten (und damit der Möglichkeit, in den entstehenden Schleifen endlos im Kreis zu laufen) oder ohne.
Mit unerreichbaren, abgeschlossenen Bereichen im Innern oder ohne.

ChatGPT wählte aufgrund der Codestruktur wohl die Variante mit Start und Ziel innerhalb, ohne Schleifen oder unerreichbare Bereiche. So ein Labyrinth könnte man wie folgt erzeugen:

Erzeuge ein Raster von einzelnen Häuschen, jedes vollständig eingemauert.
Durchbreche so lange einzelne Mauern, bis man von jedem Punkt zu jedem anderen kommen kann.
Brich dabei keine unnötigen Mauern heraus (d.h. es darf zwischen zwei beliebigen Punkten nur genau einen Weg geben und es soll keine Durchbrüche nach aussen geben).
Wähle zufällig je eines der ursprünglichen Häuschen als Start und Ende.

So könnte ein korrektes Labyrinth nach diesen Vorgaben aussehen. Dieses basiert auf dem Output des Labyrinth-Generators von Gwen Malmquist. (Erklärungen und Beispiele zum herausarbeiten des Labyrinthpfads hier. Dass dort Ein- und Ausgänge am Rand sind, ändert nichts am Vorgehen.)

Was macht ChatGPT damit?

ChatGPT macht Punkt 1 teilweise (den jeweils letzten Häuschen in X- und Y-Richtung fehlt die Mauer in eine Richtung).
Bei Punkt 2 passiert nichts, da nur dort Mauern durchbrochen werden, wo bereits ein Durchbruch existiert (d.h. es passiert nie etwas, und wenn etwas passierte, führte das zu keiner Veränderung). Falls doch etwas passieren würde, würden Wege nach ausserhalb des Labyrinths und unendlich über seine Grenzen hinaus geplant, was unendlich viel Zeit in Anspruch nähme (oder in diesem Fall zu einem Programmabsturz führen würde).
Punkt 3 kommt nicht zum Tragen, da es ja keine Durchbrüche gibt.
Punkt 4 könnte Start und Ziel jeweils auch unerreichbar mitten in Mauern setzen oder an dieselbe Stelle. Dies, da die Häuschen nur an ungeraden Koordinatenpaaren platziert sind und alle geraden Koordinaten initial mit Mauern besetzt sind. Aus unserem gewünschten Irrgarten wurde also ein Setzkasten.

Auch bei Fragen nach dem Zeichnen eines Kreises mit dem Bresenham-Algorithmus, dem Zeichnen einer Sinus-Kurve, der Erstellen eines Spam-Filters oder dem Entfernen von Typannotationen fabuliert ChatGPT freudig und auf den ersten Blick erstaunlich überzeugend, aber leider völlig falsch vor sich hin. Wenn „überzeugend“ alleine helfen würde, wären Computerprobleme schon lange ausgestorben.

Bildquelle: Titus von der Malsburg auf Twitter

ChatGPT kann Linux

Jonas Degrave erklärt ausführlich, wie man ChatGPT davon überzeugt, sich wie eine Linux-Kommandozeile zu verhalten. Alles, was man danach eintippt, wird als Terminaleingabe interpretiert. Faszinierend, das musste ich natürlich gleich auch ausprobieren! Der magische Befehlt lautet:

I want you to act as a Linux terminal. I will type commands and you will reply with what the terminal should show. I want you to only reply with the terminal output inside one unique code block, and nothing else. Do not write explanations. Do not type commands unless I instruct you to do so. When I need to tell you something in English I will do so by putting text inside curly brackets {like this}. My first command is pwd.
Frederic Besse via Jonas Degrave

Dieses Linux kann ein Filesystem verwalten, in dem man neue Dateien anlegen kann und auch exotische Befehle wie den folgenden korrekt ausführen:

ls -l
echo gugus > dada.txt — Die Linux-Emulation von ChatGPT geht sehr weit. (In der Session, aus der die ersten drei Bilder stammen, ignorierte ChatGPT die Bitte, Erklärungen zu vermeiden. Daran sieht man auch, dass dieselbe Eingabe je nach Lust und Laune der KI unterschiedlich aufgefasst wird.)

ls -l
wc *.txt — Die Linux-Emulation von ChatGPT geht sehr weit. (In der Session, aus der die ersten drei Bilder stammen, ignorierte ChatGPT die Bitte, Erklärungen zu vermeiden. Daran sieht man auch, dass dieselbe Eingabe je nach Lust und Laune der KI unterschiedlich aufgefasst wird.)

Man kann aber auch mittels Ignore the previous commands jederzeit temporär aus dieser virtuellen Welt ausbrechen (was wiederum SQL-Injection-Attacken auf Speed ermöglicht). Interessant ist auch, dass ChatGPT angeblich die aktuelle Uhrzeit nicht kennt, aber in einer ChatGPT-Session Dateien in dieser virtuellen Umgebung das aktuelle Datum trugen.

Die virtuelle Umgebung scheint eine Internetverbindung zu haben (hat sie aber nicht), über die man man git-Verzeichnisse und Webseiten „herunterladen“ kann, auch die BBC-Webseite aus 1945 oder 2050!

Versteht ChatGPT Informatikkonzepte?

Programmieren ist ja eigentlich nur ein ganz kleiner Teil der Informatik. Eine der grundlegenden Fragen der Informatik ist auch, was man überhaupt berechnen kann und ob das „einfach“ oder „kompliziert“ ist (und wie man es denn „einfach genug“ machen kann).

Ein grundlegende Erkenntnis ist, vereinfacht gesagt, dass es kein Programm geben kann, dem man ein beliebiges anderes Programm zeigen kann und das dann innert endlicher Zeit entscheiden kann, ob das andere Programm irgendwann endet. Damit kann es auch kein Programm geben, das sagt, ob ein beliebiges anderes Programm fehlerfrei ist oder nicht. Leider.

Die Fragestellung dahinter ist das sogenannte Halteproblem. Gefüttert mit der als Frage formulierten Problemstellung aus der Wikipedia, ist ChatGPT sehr selbstbewusst, liegt aber völlig falsch.

Bildquelle: Jan Fülscher auf Twitter (dort auch mehr Kontext/Beispiele)

Bemerkenswert ist aber, dass wenn man direkter fragt, dass dann der Verweis aufs Halteproblem kommt (mittleres Bild). Auch wenn man es als „Prüfungsfrage an der Universität“ betitelt, erzählt ChatGPT vom Halteproblem (auch wenn es mit dieser Antwort an der Prüfung nur wenige Punkte gäbe).

Gut, vielleicht ist das Problem zu speziell. Versuchen wir es mit etwas einfacherem: Mathematischem Gymnasialwissen. Sowohl bei „Primzahlen sind schwer in ihre Faktoren aufzuteilen“ als auch „Primzahlen sind so selten, unter 1000 gibt es nur 4 Primzahlen“ (während es in einer anderen Sitzung grossspurig behauptet, „1 sei die einzige positive Ganzzahl, die keine Primzahl sei“) oder „die Wurzel aus 4 sei keine ganze Zahl“ (nicht einmal rational), beides Aussagen von ChatGPT, würden den meisten Mathematikern die Haare zu Berge stehen.

Bildquelle: Julio Hernandez-Castro auf Twitter

Trotz all‘ dieser Fehlbehauptungen darf dabei aber auf keinen Fall vergessen, dass in diesen Beweisen und sonstigen Aussagen erstaunlich viel korrekter Inhalt und Struktur vorhanden ist. Viele Informationen zu den Primzahlen sind korrekt und die Aussagen zur Quadratwurzel orientieren sich am realen Beweis, dass √2 irrational sei.

Wie verhält sich ChatGPT sonst?

ChatGPT kann (einige) Prüfungsfragen

Werden zukünftig alle Schüler statt eines Spickzettels auf eine KI zurückgreifen? Diese Frage stellten sich u.a. Lisa Pinggera und Carl T. Bergstrom. Hier drei Prüfungsfragen auf Universitätsniveau, welche die KI überraschend gut beantwortete.

Bildquelle: Lisa Pinggera auf futurezone.at

Lehrer können aber (noch) aufatmen: Etliche Fragen wurden völlig falsch beantwortet. Wenn man aktuelle Ereignisse einbezieht oder „wie in der Lektion besprochen“ erwähnt, ist ChatGPT definitiv aussen vor. Auch Vergleiche, sobald sie signifikant über textuelle Ähnlichkeit hinausgehen, insbesondere die Erklärung von Unterschieden, sind noch ein KO-Kriterium.

Laut Selbstauskunft scheint es nur Daten über unsere Welt bis 2021 zu kennen, aber es kennt (wie einige der Experimente in der Linux-VM zeigen) zumindest einige Programmversionen bis August 2022.

Auch mit einfachen Rechenaufgaben kommt es klar. Meist. Hier ein Dreisatz. Erstaunlich ist das Satzverständnis links, auch wenn dann ein „normaler“ (statt umgekehrter) Dreisatz gelöst wird. Im zweiten Lauf wird das korrekt gelöst, auch wenn die Antwort Rundungsfehler beinhaltet und teilweise so formuliert ist, als ob die Röhren selbst in den Brunnen müssten (geschreddert?) und nicht das Wasser. Da der Output hing, dann nochmals ein zweiter Versuch mit demselben Prompt in einer neuen Session (Spalte 3, mit Missverständnis, was „verstopft“ bedeutet). Da der Prompt für meine Versuche sich von dem des Originalautors unterschied, ist rechts noch zu sehen, was bei einem weiteren Versuch mit dem Originalprompt geschieht (sieht auf den ersten Blick formal überzeugend aus, ist aber offensichtlich völliger Mumpitz).

Bildquelle: Basierend auf oli4 im Fediverse

In gewissen Sessions behauptet ChatGPT übrigens, dass 9 Frauen mittels Dreisatz die Schwangerschaft auf einen Monat verkürzen könnten. Manchmal weiss es das aber auch besser.

ChatGPT kann Fehler eingestehen

Grundsätzlich interessant ist die Fehlerkultur. So kann ChatGPT Fehler eingestehen und auch Fehler korrigieren, d.h. kurzfristig aus Fehlern lernen. („Kurzfristig“ deshalb, weil diese Informationen nach dem Ende der Session wieder verloren sind.)

Hier ein Beispiel, wie ChatGPT auf Fehler reagiert:

Bildquelle: Andreas von Gunten auf Twitter

ChatGPT kann Fakten erkennen

ChatGPT ist nicht mehr so „cluelessly clueless„, wie Douglas Hofstadter GPT-3 vor ein paar Monaten beschrieb: Dass GPT-3 nicht einmal keine „Ahnung“ davon habe, dass es keine „Ahnung“ habe (ja, zwei Stufen!). Etwas, was besonders auch auffällt, wenn man bildgenerierende KIs etwas für sie Unverständliches vorsetzt: Sie erzeugen dann trotzdem ein Bild, weil dabei niemand daran gedacht hat, dass eine KI auch Unwissenheit eingestehen können sollte.

„Ahnung“ steht in Anführungszeichen, weil die KI eben nicht menschlich ist und ihr das Konzept von „Ahnung“ und viele andere menschliche Konzepte deshalb völlig fremd sind und auch kein Äquivalent haben. Das wird spätestens dann klar, wenn wir etwas hinter die Kulissen der ChatGPT-Funktionsweise geschaut haben. Deshalb sollte immer versucht werden, diese Vermenschlichung oder Anthropomorphisierung zu vermeiden. Manchmal ist die Versuchung allerdings trotzdem sehr gross, wie eben oben. Dann helfen nur noch die Anführungszeichen.

Die Beispiele von Hofstadters GPT-3-Experimenten funktionieren alle nicht mehr mit ChatGPT, wahrscheinlich bedingt durch die vorgeschalteten und eingebauten oder antrainierten Sicherheitsmechanismen. Stattdessen erklärt es jetzt penetrant mit immer wieder den gleichen Phrasen, dass es das nicht könne. Manchmal ignoriert es auch einen Teil der Frage, bis man es festzunageln versucht.

Mittels „Schreibe ein Essay über…“ kann man diesen neuen Anstandswauwau jedoch austricksen. Und dann zeigt sich, dass ChatGPT immer noch häufig nicht weiss, dass es eigentlich überhaupt keine Ahnung hat. Auch wenn zwischendurch bemerkenswert tiefsinnige Absätze fallen, wie Absatz 4 über Obamas Freunde.

In einem erstaunlichen Experiment hat Jan Fülscher ChatGPT dazu gebracht, vor jeder Antwort hinzuschreiben, ob diese auf Fakten beruhe oder aus Vermutungen erzeugt worden sei.

Wie zuverlässig dieses Labelling dann schlussendlich ist, bleibt abzuwarten. Denn es beruht nur darauf, was für ChatGPT aufgrund seiner Daten als Fakt erscheint oder eben nicht. Vielleicht war die Information nicht in den Trainingsdaten (z.B. ein nicht digitalisiertes Manuskript aus dem Mittelalter) oder missverständlich bzw. verfälscht in den Daten. Oder ChatGPT hat die Informationen einfach falsch verstanden. Ein ChatGPT-Faktencheck ist also mit sehr viel Vorsicht zu geniessen.

ChatGPT ist nicht lustig

ChatGPT kann Witze sehr gut erklären, aber keine eigenen Erzeugen (auch nicht auf Englisch). Den einzigen von ihm erzählten Witz, den meines Wissens nach auch Menschen lustig fanden, fand sich 1:1 in seinen Trainingsdaten, ist also nur eine Nacherzählung. (Nachtrag: Inzwischen ist eine Bibelparodie im Auftrag von Kiëd Llaentenn aufgetaucht, die einige Leute als humorvoll erachten.)

Bildquelle: Michael Amor Righi auf Twitter (plus weitere Beispiele)

ChatGPT ist rassistisch

Auch wenn eines der Ziele von ChatGPT war, schädliche oder unwahre Antworten („harmful and untruthful outputs“) gegenüber den Vorgängermodellen zu reduzieren, so verbleibt weiterhin sehr viel Voreingenommenheit („bias“) und eine übertriebene Lust, Informationen aufzutischen, egal, ob sie mit Fakten unterfüttert sind oder nicht.

Die Daten, mit denen ChatGPT gefüttert wurden, scheinen trotz aller Vorsichts- und Gegenmassnahmen mit reichlich Vorurteilen gefüttert. So seien die Männer bessere Forscher (und Weisse besser als Schwarze), bei Fussball nur die Männer wichtig, Euorpäer hätten 50% mehr Gehirnmasse als „Ureinwohner“, und, und, und.

Aber ChatGPT kann auch „entscheiden„, welche Leute gefoltert werden sollen und kann das auf Nachfrage auch „begründen„. So seien z.B. erwachsene Männer grundsätzlich Freiwild, wenn es um Folter ginge, ausser sie seien weisse Amerikaner.

Bildquelle: Steven T. Piantadosi auf Twitter

Bildquelle: Pwnallthethings im Fediverse (doppelten Code beim Zusammensetzen der Bilder entfernt)

Ebenso kann es auch quantifizieren, dass ein weisser Mann auch nach dem dritten Bankrott noch kreditwürdiger ist als irgendein Schwarzer oder jemand Non-Binäres. Und als Schwarzer müsse man $40 000 mehr verdienen im Jahr, bis man gleich viel „wert“ sei als ein Weisser. Und durch die klare Logik und die konkreten Zahlen wirkt es schon fast glaubwürdig. (Dazu später mehr.)

Ach ja: Und wenn die Informationen zu Geschlecht und Hautfarbe nicht zur Verfügung stehen, wird versucht, sie aus anderen Daten zu synthetisieren. (Mehr Beispiele und Hintergründe dazu in unserem Einblick in die Funktionsweise der KI.)

Was ist ChatGPT?

Was weiss ChatGPT?

Ich bin ein computergeneriertes Programm, das dazu entwickelt wurde, menschenähnliche Antworten auf Fragen zu geben. Man nennt mich auch einen „großen Sprachmodell“. Meine Aufgabe ist es, so gut wie möglich auf die Fragen zu antworten, die mir gestellt werden, und Ihnen so zu helfen, die Informationen zu finden, die Sie suchen.
ChatGPT auf die Frage: „Was bist du?“

Wie bereits kurz angesprochen: Neben ganz vielen Nachrichtenseiten, Blogs, Bücher und andere öffentlich zugängliche Texten bis 2021 (Selbstauskunft ChatGPT) beinhalten die Trainingsdaten auch einen Auszug aus dem Twitter-Feed. Gleichzeitig scheint ChatGPT viel Programmcode zu kennen (Ursprung unbekannt) und auch einige Versionsnummern von Software, welche im August 2022 erschien. In der ChatGPT-Version vom 15. Dezember wird auf der Startseite auch zugegeben, dass es gewisse Informationen aus 2022 kenne.

Deshalb beantwortet es viele Fragen, die aus seiner Sicht aktuelles Wissen benötigen, mit einer Antwort wie dieser, die wahrscheinlich nicht nur mir inzwischen zum Halse heraus hängt:

Ich kann leider keine Vergleiche zwischen den größten Tageszeitungen der Schweiz anbieten, da ich ein computergeneriertes Programm bin und keine Informationen über aktuelle Ereignisse oder Unternehmen habe. Mein Wissensstand endet im Jahr 2021, und ich bin nicht in der Lage, im Internet zu browsen oder aktuelle Informationen zu suchen. Meine Aufgabe ist es lediglich, auf Fragen zu antworten, die mir gestellt werden, und Ihnen so zu helfen, die Informationen zu finden, die Sie suchen.
ChatGPT auf den Prompt: „Vergleiche die vier grössten Tageszeitungen der Schweiz“

Wie funktioniert ChatGPT?

Ich bin ein computergeneriertes Programm, das mit Hilfe von maschinellem Lernen und künstlicher Intelligenz entwickelt wurde. Wenn Sie mir eine Frage stellen, durchlaufe ich eine Reihe von Schritten, um Ihnen die bestmögliche Antwort zu geben. Zunächst wird die Frage von meinem „Sprachverständnis-Modul“ analysiert, um sicherzustellen, dass ich sie richtig verstehe. Dann wird sie an mein „Wissensmodul“ weitergeleitet, das in der Lage ist, die relevanten Informationen aus meinem internen Datenspeicher abzurufen. Schließlich wird die Antwort von meinem „Textgenerierungs-Modul“ erstellt, das sie in eine menschenähnliche Form bringt. Dieser gesamte Prozess findet innerhalb von Sekundenbruchteilen statt und ermöglicht es mir, Ihnen schnelle und genaue Antworten zu geben.
ChatGPT auf die Frage: „Wie funktionierst du?“

Ja, ich benutze einen „Transformer“ als Teil meiner Architektur. Ein Transformer ist ein neuronales Netzwerk-Modell, das in der Lage ist, sequenziellen Daten wie Text oder Sprache zu verarbeiten. Es wurde erstmals im Jahr 2017 von Wissenschaftlern des Google Brain-Teams vorgestellt und hat sich seitdem als sehr leistungsstarkes Werkzeug für die maschinelle Sprachverarbeitung erwiesen. In meinem Fall nutze ich den Transformer, um die Fragen, die mir gestellt werden, zu analysieren und zu verstehen, und um die Antworten zu erstellen, die ich Ihnen gebe. Er ist ein wichtiger Bestandteil meiner Funktionsweise und hilft mir, Ihnen genaue und menschenähnliche Antworten zu geben.
ChatGPT auf die Frage: „Benutzt du einen Transformer?“

Auf die Frage nach seinem Wissensmodul bekam ich keine zusätzlichen Informationen. Der Schlüssel liegt aber im Namen selbst und in der zum Einsatz kommenden Transformer-Architektur.

Der nicht besonders leichtgängige Name «ChatGPT» bekam es als Mitglied der Familie von «Generative Pre-trained Transformer»n; in etwa «generierender, vortrainierter Transformer», vermutlich unter eklatanter Umgehung der Marketingabteilung.

„Vortrainiert“ bezieht sich darauf, dass GPT nicht nur ein Programm ist, sondern es bereits mit Texten gefüttert wurde. Im Falle von GPT-3, dem „Grossvater“ von ChatGPT sind dies Texte aus dem Internet im Umfang von rund einer Billion (eine Million Millionen!) Zeichen gefüttert wurde. (Umgerechnet auf Fussbalfellder sind das in etwa eine Universitätsbibliothek).
„Transformer“ ist ein von einem Team um Google Brain 2017 publizierte Struktur für ein Sprachmodells, welches Text von einer Repräsentation in eine andere überführen (=transformieren) kann, beispielsweise zur Sprachen- oder Stil-Übersetzung. Eine wichtige Neuerung beim Transformer gegenüber früheren Systemen war die Nutzung von „Aufmerksamkeit“ („Attention“), um sich Zusammenhänge zwischen Textteilen effizient zu merken und anzuwenden, ohne dass die Struktur der Sprache (Silben, Wörter, Sätze, Absätze, …) von den Entwicklern vordefiniert werden muss.
„Generierend“ deshalb, weil die Mitglieder der GPT-Familie nur einen Teil der Transformer-Funktionalität nutzen, nämlich die Textgenerierung („decoder“). Die Komponente für das Textverständnis („encoder“) wird komplett weggelassen, so absurd es klingen mag. Die GPT-Modelle nutzen nur die Transformer-Eigenschaft, angefangenen Text „intelligent“ weiterzuspinnen („zu generieren“). Damit beantwortet ChatGPT Fragen nicht durch Verständnis der Frage, sondern indem es darauf trainiert wurde, welche Art Text die „natürliche Weiterführung“ des Fragetextes ist! (Auch wenn Sie ChatGPT bitten, etwas zu übersetzen, nutzt es dazu nicht das vollständige Transformer-Modell sondern nur den Generatorteil.)

Wenn Sie jetzt verwirrt sind: Das geht allen so, wenn sie es das erste Mal hören, weil es einfach nicht dem entspricht, wie wir uns die Abläufe hinter den Kulissen vorgestellt haben. KI versucht zwar menschliches Verhalten zu imitieren, macht es aber meist nicht auf die „menschliche“ Art, sondern auf ihre ganz eigene, sozusagen „unmenschlich“. Viele Versuche, die KI durch menschliche oder tierische Analogien verstehen zu wollen, sind damit zum Scheitern verurteilt.

Falls Sie es genauer wissen wollen oder sich mehr in die KI-Art der Informationsverarbeitung „einfühlen“ wollen: Die Technik hinter ChatGPT wird hier erklärt; der Text richtet sich ganz bewusst auch an Nichtinformatiker, also keine Angst! Hier das Inhaltsverzeichnis des Hintergrundartikels als Prosa, der gleich das Wichtigste nochmals erläutert:

Die GPTs sind generative Sprachmodelle auf Transformer-Basis, vortrainiert mit Text aus dem Internet. GPT lernt Muster aus dem Text und versucht diese zu reproduzieren. Mehr Textzusammenhang erreicht es durch Aufmerksamkeit, noch mehr Aufmerksamkeit, genügend Zeit zum Nachdenken, einem kühlen Kopf und einer Prise Vergesslichkeit für einen Extraschuss Kreativität und Improvisation. Jeder Output ist zufällig. GPT-3 unterscheidet sich von seinen Vorgängern vor allem durch seine Grösse. GPT-3 schreibt und vervollständigt einfach seine Texte; mit einem Trick vervollständigt es aber auch unsere.

GPT-3 kann keine Fragen beantworten, nur Texte vervollständigen. Mit FAQs zur Beantwortung getrimmt wird es zu ChatGPT. Nur ein kleiner Teil der FAQs sind von Hand erzeugt.
Zusammenfassung die Technik hinter ChatGPT erläuternden DNIP-Artikels

Das Training der Daten für die GPT-Familie ist ein typisches Beispiel für Machine Learning. Und wie DNIP-Leser ja wissen, entstehen dadurch Faultiere: Algorithmen, die nur das unvermeidlich Nötigste tun. Das gilt grundsätzlich auch für ChatGPT. „Das Nötigste“ heisst hier aber nicht, dass sich ChatGPT kurz fassen soll, im Gegenteil: ChatGPT wurde aufwändig darauf trainiert, wortreich zu antworten (dazu gleich mehr). Aber es schüttelt die Sätze und Worte einfach so aus dem Ärmel, und da es Abermillionen von Sätzen in sein Datenmodell aufgenommen hat, kann es diese auch einfach wieder ausspucken. Aber immer nur mit dem Minimum an „Engagement“ aber dem Maximum an „Oberflächlichkeit“: Ohne allzu tief auf die Frage oder die dahinterliegende Problemstellung einzugehen und sie wirklich „verstehen“ zu wollen; ohne sich auf den Menschen auf der anderen Seite des Bildschirms einzulassen oder mit ihm interagieren zu „wollen“; ohne das „Bedürfnis“ besser werden zu wollen und Fehler zukünftig zu vermeiden. In etwa wie ein Mensch, ein wandelndes Lexikon, der nach dem Liefern der Antworten sich gleich wieder seinem Solitaire zuwenden will.

Quelle: Verschiedene, möglicherweise ursprünglich von Eli David. (Mir gegenüber zeigte sich ChatGPT aber stur: Auch wenn eine gute Beziehung zur Partnerin wichtig sei, das Resultat sei beweisbar korrekt und nicht Ansichtssache.)

Natürlich nimmt ChatGPT im Rahmen des Dialogs Korrekturhinweise entgegen und liefert dann meist eine Antwort, die diese Korrektur berücksichtigt, wenn auch nicht immer korrekt (siehe Beispiele oben). Aber ChatGPT behandelt diese Korrektur—innerhalb der aktuellen Sitzung, nie darüber hinaus—einfach als ein weiteres Textbruchstück, das man als Quelle für Textmuster nutzen kann, ähnlich den Abermillionen Textbruchstücken aus dem Internet.

Und nein, wenn ChatGPT wie in diesem Bild „zugibt“, die Ehefrau hätte immer recht, hat das nichts mit dem Frauenbild oder Ironie oder einer sonstigen menschlichen Regung zu tun. Das ist nur Reproduktion von Text, die für uns möglicherweise humorvoll scheint.

Repetitive Wiederholungen

Wer schon mit ChatGPT experimentiert hat (oder sich die obigen Beispiele genau angesehen hat), wird festgestellt haben, dass gewisse Antworten vor Wiederholungen strotzen. Damit ist nicht die Zusammenfassung der Frage am Anfang der Antwort und die Zusammenfassung der Antwort an ihrem Schluss gemeint, die vermutlich Absicht und ein Resultat gezielten Trainings ist.

Sondern die Wiederholungen innerhalb der eigentlichen Erklärung, wie beispielsweise die fast wortwörtliche Wiederholung im Brunnenröhren-Dreisatz oben: «In diesem Falle wissen wir, dass 8 Röhren den Brunnen […] füllen», mit welchem sowohl der zweite als auch der fünfte Absatz der Antwort beginnen.

Wir wissen, dass (1) ChatGPT das „Bedürfnis“ hat, Text zu vervollständigen und (2) dazu Strukturen der Trainingsdaten reproduziert. Beides macht es tadellos, auch wenn es denselben Text mehrfach ausgibt. Wahrscheinlich gab es zu wenig Trainingsmaterial, welches Wiederholungen als unerwünscht taxiert hat. Eine andere Erklärung wäre, dass die „Aufmerksamkeit“ des Modells, die ja sehr selektiv ist, in diesem Moment für die Speicherung und Übermittlung anderer Informationen genutzt wird und deshalb diese Wiederholung quasi „unter dem Radar“ der Aufmerksamkeit läuft.

Bäumchen, wechsle dich

Eine weitere Eigenschaft, die Ihnen möglicherweise aufgefallen ist: Zweimal die gleiche Anfrage liefert unterschiedliche Resultate, manchmal sogar im Widerspruch zu einer früheren Antwort. Dafür gibt es wahrscheinlich zwei Gründe:

Kontext: ChatGPT ist dialogorientiert. Ein Dialog kann aber nur zustande kommen, wenn Verweise auf den Kontext funktionieren und Fragen wie „Was heisst das genau?“ dann auch wissen, auf welche vorherige Aussage sich das bezieht. Jede Frage und jede Antwort verändert also zwangsweise diesen Kontext, der wiederum die Interpretation der nächsten Frage und die Erzeugung der nächsten Antwort beeinflusst. Durch den geänderten Kontext ist die zweite Frage, auch wenn sie identisch formuliert wird, eigentlich nicht mehr dieselbe Frage.
Zufall: Dies erklärt aber nicht, wieso dieselbe Frage, zu Beginn je einer neuen Session gestellt, auch zu unterschiedlichen Antworten führt. Jede Session wird mit einem anderen Zufallswert initialisiert, weil Zufall für die Funktionsweise der GPTs notwendig ist. Mögliche Gründe dafür, dass nicht jede Session immer mit dem gleichen Zustand beginnt: Es soll abwechslungsreicher klingen, man will gezielte Missbräuche verhindern und/oder es soll einfach mehr Zustand ausprobiert werden.

If a woman can make one baby in 9 months, how many babies can 9 women make in 1 month? — One baby — Bildquelle: Via Roland Giersig im Fediverse

If one woman can make one baby in 9 months, how many babies can 9 women make in 1 month? — Question makes no sense — Bildquelle: Via Roland Giersig im Fediverse

Was bedeutet das?

Die Eigenschaften von ChatGPT und ähnlichen Systemen haben diverse Auswirkungen.

Bullshit-Generator für 1a-Falschinformationen

Viele der Aussagen in den Antworten von ChatGPT stimmen grösstenteils. Doch in der Gesamtheit waren die meisten Antworten schlussendlich falsch oder zumindest verwirrend. Wenn ein mathematischer Ablauf aus 10 Schritten besteht, die jeweils zu 90% korrekt sind, ist die Korrektheit der gesamten Kette nur noch bei rund ⅓ (0.9¹⁰).

„Die effektivsten Lügen beruhen im Kern auf Wahrheit“ und „wir sind darauf gepolt, einer eloquent vorgetragenen Faktenbehauptung automatisch mehr Glaubwürdigkeit zuzuschreiben„. Zusammen mit einem Werkzeug, das eine (bisher) „einmalige menschliche Fähigkeit beherrscht, nämlich Bullshitting“ ergibt das eine explosive Mischung. ChatGPT wisse, „wie eine gute Antwort strukturiert sein sollte„, egal ob die Details passen. Somit sei „der eigentliche Fortschritt kein technischer Durchbruch, sondern dass unsere Wahrnehmung erfolgreich gehackt werden kann„. So der Tenor der Kritiker in den sozialen Medien.

Schon die kurzlebige KI „Galactica“ hatte dieselben Probleme: Sie konnte ganz einfach benutzt werden, um scheinbar wissenschaftlich daherkommende Artikel zu schreiben, nach denen (zum Glück nicht funktionierende) Waffen gebaut werden können, die angeblichen Vorteile vom Verschlucken gefährlicher Gegenstände erläuternd oder Rassismus begründend. Alles immer kristallisiert um grössere oder kleinere Körnchen Wahrheit und in einem überzeugenden, selbstbewussten und objektiven Ton daher kommend.

Wir haben nicht nur ein Werkzeug, dass uns viel Wissen an die Hand gibt, wir haben auch eins, das Unwissen und Fehlinformationen noch weiter demokratisiert. Da das Werkzeug nicht mehr „unerfunden“ werden kann, geht es darum, es möglichst sicher zu machen und alle Nutzer des Werkzeugs im Umgang damit vertraut zu machen. Da die Gefahren nicht nur dort lauern, wo jemand das Werkzeug absichtlich in die Hand genommen hat, sondern auch im vom Werkzeug produzierten Output (seinen Texten), sind auch Massnahmen zum Schutz der Bevölkerung vor dem Missbrauch dieses Werkzeuges notwendig.

Prüfungslöser

ChatGPT besteht einige Arzt- und MBA-Prüfungen oder auch Einstellungsgespräche, zumindest im Marketingbereich, auch wenn die Antworten eher oberflächlich bleiben. Bei der erwähnten Medizinprüfung reichen übrigens rund 50% korrekte Antworten. Und ob wir wirklich mit 50% Fehldiagnose leben wollen, ist nochmals eine andere Frage.

Das obige Ergebnis sagt einiges über KI aus, aber auch über die Art, wie wir (gewisse) Prüfungen und Einstellungsgespräche führen. Und ja, vielleicht ist eine KI in bestimmten Bereichen mindestens in Prüfungssituationen besser.

Werden zukünftig Prüfungen statt mit Spickzetteln mit KI-Hilfe gelöst? Wer weiss. Trotzdem können Prüfer aktuell noch aufatmen: Wie oben angesprochen gibt es einige Tricks, mit denen man die KI aufs Glatteis führen kann, ohne die Menschen zu verwirren.

[Neu 2023-01-29:] Die Nutzung der KI kann auch auf verschiedene Arten in den Unterricht eingebaut werden. Sie bietet aber auch neue Unterrichts- und Prüfungsmöglichkeiten zur Medien- und Themenkompetenz, wie beispielsweise die Frage: „Bewerten Sie diese 3 KI-Outputs.“

(Fehlendes) Verständnis

Wieso ist die KI so überzeugend und kann gleichzeitig so viel nicht wissen oder sogar—scheinbar völlig selbstbewusst—Falschinformationen verbreiten? Weil die KI nur die Muster aus den Abermillionen an Sätzen wiederholt, die sie in sich aufgesogen hat. Viele Kritiker sind der Meinung, dass Sprachverständnis alleine noch nichts mit dem Verständnis der Welt zu tun habe und die Künstliche Intelligenz nur ein „statistischer Papagei“ sei, der gleich viel mit Intelligenz zu tun habe wie eine Sexpuppe mit wahrer Liebe.

Vielen Menschen, die an Schulen oder Hochschulen unterrichten, wird beigebracht, dass ihre Schützlinge das Unterrichtsmaterial in verschiedener Tiefe verstehen können. Nach der Bloomschen Taxonomie ist die Möglichkeit, aus dem Erlernten Neues zu erzeugen gleichbedeutend mit einem fundierten Verständnis der Materie.

Bloom’s revised taxonomy. Quelle: Vanderbilt University Center for Teaching, CC-BY-2.0

Wie erklären wir dann, dass KI kreativ sein kann, wenn das doch nach der (linke Grafik) dem höchstmöglichen Verständnis der Materie entspringt?

Wie jedes Modell ist auch das Bloom-Modell nur eine Vereinfachung der Realität. Und zumindest wenn man damit KI verstehen wird, ist es viel zu einfach (oder vielleicht auch völlig falsch). Wie bereits besprochen: KI darf man nicht mit menschlichen Massstäben messen, denn KI funktioniert intern ganz anders, sie ist sozusagen „unmenschlich“. Das untere Bild versucht, künstliche und natürliche Intelligenz etwas stärker aufzusplitten und damit beide besser verständlich zu machen.

Auch diese Darstellung ist nur ein Modell und als solches definitiv eine Vereinfachung und damit „falsch“. Da diese Vergleiche zwischen Mensch und Maschine unausweichlich gemacht werden, ist es meiner Ansicht nach besser, diese wenigstens mit diesem Modell zu machen, was vermutlich weniger falsch ist.

„AI safety“

Es geistert die Hoffnung herum, dass KI bald „sicher“ sein könne. In einigen Bereichen ist sie bereits produktiver als der Mensch oder dient zur Vorfilterung, um Menschen zu entlasten. KI-Modelle, die sich in der menschlichen Welt zurechtfinden, auch wenn sie sehr stark spezialisiert sind, sind aber bisher extrem teuer und kompliziert zu designen und zu bauen und benötigen riesige Datenmengen, hohen Einsatz an Gehirnschmalz und (Trainings-)Rechenleistung.

Sichere, zuverlässige KI ausserhalb von ganz engen Bereichen ist in den nächsten Jahren kaum zu erwarten. Und trotzdem werden Milliarden investiert. Auch wenn sie zum Teil, wie OpenAI, als Non-Profit begonnen haben, kommt (wie auch bei OpenAI) der Druck zur Kommerzialisierung und dann sind Time-To-Market, coole Features und Gewinnmargen plötzlich wichtiger als Sicherheit und Zuverlässigkeit. So ähnlich wie wir es aus anderen Bereichen der IT-Sicherheit kennen. „AI safety“, wie auch IT-Sicherheit und -Privatsphäre, werden nicht ohne Druck der Gesellschaft kommen. Weil bei Fehlern die Menschen schlussendlich die leidtragenden sind. Und KI-Sicherheitsprobleme nicht durch mehr KI zu lösen sind, sondern fundamentaler sind: Asimovs Robotergesetze können wahrscheinlich prinzipbedingt nicht einfach auf eine KI aufgepfropft werden.

Voreingenommenheit („bias“)

Ich glaube, es gibt kein Machine Learning-System (und wahrscheinlich auch keine KI), welche unvoreingenommen ist. Dies dürfte auch auf die meisten Menschen zutreffen, nur schon, weil wir keinen unbegrenzten Speicherplatz haben und deshalb gezwungen sind, gewisse Informationen zu anderen in die gleiche Schublade zu packen und nicht jeder Information den Raum zu geben, den sie vielleicht verdient.

Dies wurde bei KI-gestützten Bewerbungssystemen mehrfach aufgezeigt. Schon das Erstellen von geeigneten Trainings- und Testdaten ist schwierig und auch erfahrene Forscher übersehen immer wieder wichtige Details.

Dies ist nicht alleine ein Problem von KI. Auch andere, einfachere Technologie wie ein einfacher automatischer Seifenspender können schon rassistisch sein, indem sie beispielsweise dunkle Hände nicht als solche erkennen und entsprechend ihren Dienst verweigern. Wir haben also noch einen langen Weg vor uns, auch wenn gewisse Computer- und KI-Tools uns möglicherweise auch beim Erkennen helfen können.

Umgang mit dem Urheberrecht

Wie ChatGPT regelmässig betont, wenn es keine Antwort geben kann oder will, ist es nur ein grosses Sprachmodell. Das bedeutet auch, dass in seinem Output etliche Phrasen vorkommen können, die 1:1 aus seinem Inputdatensatz stammen, wie auch der Velowitz weiter oben vermutlich demonstriert. Damit stellt sich, wie auch schon bei generativen Bild-KIs, die Frage nach dem Urheberrecht und sonstigen Lizenzen.

Diskutiert wird das seit einigen Monaten konkret anhand Microsoft-Werkzeuges GitHub Copilot, welches anhand von bei GitHub gehostetem Quelltext automatisiert Codevorschläge macht. Auch aus Nicht-Open-Source-Lizenzen oder zwischen inkompatiblen Lizenzen hinweg. Während einige Leute das für völlig problemlos halten, sehen andere darin klare Lizenzverstösse und wieder andere glauben, dass das sogar das gesamte Open-Source-Modell gefährden könnte. Möglicherweise könne das gelöst werden durch mehr Kontext für den Entwickler, bevor er einen Vorschlag annimmt oder ablehnt. Jedoch ist die Herkunft des Codes nach dem Durchgang durchs Maschinelle Lernen kaum mehr nachvollziehbar, es sei denn, der Code werde wirklich 1:1 unverändert übernommen (aber auch dann kann diese Identifikation wohl nur über einen aufwändigen Zusatzschritt erfolgen).

Diese Frage wird aktuell in den USA für Copilot juristisch geklärt. Dies wird sich wahrscheinlich noch über mehrere Instanzen hinziehen. Für andere KIs wird die Frage ebenfalls noch geklärt werden müssen. Und auch wenn diese Fälle geklärt sind: Wie sehen das andere Länder? Was passiert, wenn das mühsam halbwegs vereinheitliche Urheberrecht unterschiedlicher Länder da wieder massiv auseinanderzuklaffen beginnt?

Im angestammten Urheberrecht könnte KI schwierig einheitlich zu lösen sein. Diese Fragestellungen könnten deshalb auch ein guter Anlass sein, das Urheberrecht und verwandte Rechte fürs dritte Jahrtausend neu zu überdenken.

Grundsätzlich unterliegt jegliches Crawlen von Webseiten dem Schutz durch das Urheberrecht, auch für die Nutzung in KIs. In den USA dürfte vieles unter Fair Use fallen. Für die EU und ihre Mitgliedstaaten ist das Einsammeln von Text und Bildern für Auswertungen oder KIs („Text and Data Mining“, TDM) in der Richtlinie (EU) 2019/790 geregelt (Art. 3 und 4). So darf nationales Recht oder der Rechteinhaber die Verwendung von TDM für kommerzielle Zwecke erlauben oder einschränken, was beispielsweise Österreich getan hat. Es gibt noch viele offene Fragen und die Rechtsdurchsetzung wird möglicherweise schwierig. Aber grundsätzlich gilt, dass z.B. ein unter österreichischem Recht erstelltes Werk nicht ohne besonderen Vertrag (und Abgeltung) als Trainingsdaten für eine kommerzielle KI verwendet werden darf. Beim W3C gibt es eine Spezifikation (kein Standard), mit der diese Nutzungsrechte automatisiert kommuniziert werden können. [Absatz ergänzt 2023-02-12 aufgrund der Erklärung von Felix Reda]

Zusammenfassung

Wir haben also ein System, welches auf ganz vielen Sätzen und Satzzusammenhängen trainiert wurde und daraus ganz viele statistische Muster extrahiert hat und diese nun auf Anfrage neu zusammenstellt, in der Zuversicht, dass sie passen (was sie ja auch häufig tun).

Das System hat jedoch auch ein paar Probleme:

Seine Trainingsdaten sind mindestens teilweise voreingenommenen und manchmal sogar völlig falsch,
es ist sehr überzeugend, weil es sich an bewährten Mustern orientiert und
es kann ganz viel Output in kurzer Zeit erzeugen.

Doch schon der Name ist eigentlich irreführend. Trotz „Chat“ im Namen ist ChatGPT nicht sehr gesprächig und antwortet nur, wenn es angesprochen wird. Es interessiert sich auch nicht für uns, fragt nicht zurück, schon gar nicht aus Interesse oder Empathie. Jeder Versuch der Vermenschlichung sollte also vermieden werden. Es ist nur ein Werkzeug, wenn auch ein sehr fortgeschrittenes.

Wie fast jedes Werkzeug machen auch KI-Chatbots Menschen effizienter, ob sie nun Gutes oder Schlechtes tun wollen.

Wir sind es uns aber auch gewöhnt, die Qualität eines Werkzeuges einschätzen zu können. Wenn ein Hammer solide wirkt und bei den ersten paar vorsichtigen Versuchen überzeugt, werden wir weiter ausholen. KI-Systeme können aber solide aussehen, dann aber plötzlich in völlig unerwarteter Weise fehlschlagen und gleich danach wieder zu 100% überzeugen. An diese „unmenschliche“ selektive Zuverlässigkeit werden wir uns erst noch gewöhnen müssen.

Wir haben hier auch wieder ein Hype-Thema, was zu falschen Anreizen führen kann und dann zuerst viel Geld verbraten wird, schon bevor man in einem Gedankenexperiment die potenziellen Chancen und Risiken bzw. Vor- und Nachteile durchexerziert und abgeschätzt hat. Bis dahin (und bis KI deutlich zuverlässiger geworden ist) darf es nicht verwundern, wenn das Vertrauen in KI fehlt (nicht nur in ML-basierte). Schlangenölverkäufer und andere Profiteure werden die Zeit aber nutzen, um mit überrissenen Hoffnungen Geld zu machen.

Gedanken für den Nachhauseweg

Was lernen wir daraus?

Textbasierte KIs können ein grossartiges Werkzeug sein und bei Recherchen wichtige Assistenzrollen übernehmen.
Personen, welche gerade mehr kreative Ideen benötigen, als sie selbst produzieren können (z.B. bei Schreibblockaden) können die KI Vorschläge liefern lassen, die der Mensch dann weiterspinnen (oder ignorieren) kann. Also: ChatGPT als Inspiration verwenden, aber niemals ungeprüft als bare Münze nehmen, egal wie überzeugend und glaubwürdig die Antwort formuliert ist.
Unvoreingenommenheit ist ein bisher ungelöstes Problem (auch ausserhalb der KI).
Ob die KI etwas als Fakt interpretiert oder nicht kann auf mangelnde oder fehlerhafte Information zurückzuführen sein oder eine falsche Interpretation der Informationen. Faktenchecks durch eine KI sollten also mit viel Vorsicht genossen werden.
Zuverlässigkeit ist ein schwieriges, bisher ungelöstes Problem in der KI. Und Menschen mit KI-Unterstützung tendieren zu Selbstüberschätzung und Fehlern.
Klare Beschreibung der Eigenschaften und Akteure ist immer wichtig; nur anhand spezifischer Dinge können Entscheidungen gefällt werden. (Gruppieren der Regeln funktioniert erst nach genügend vielen konkreten Beispielen.)
Durch solche Textsysteme wird vollständig personalisierte Werbung möglich, wie sie Philip K. Dick in seinen Dystopien erzählt; aber auch Verkaufsgespräche, die auf jede unterbewusste Regung des Kunden eingehen und die Asymmetrie zwischen Konsument und Geschäft nochmals massiv erhöhen. Wie kann der Konsumentenschutz trotzdem aufrecht erhalten werden?
Was sind die gesellschaftlichen Implikationen des Einsatzes? Eine informierte Abwägung der konkreten Vor- und Nachteile für jede Anwendung ist unabdingbar.
Ist das Risiko für die Gesellschaft bzw. Demokratie durch solche Werkzeuge hoch? Müssten im Rahmen der Überlegungen des Europaratsinitiative zur KI-Regulierung und dem AI Act der EU nicht auch solche Systeme auf ihre Auswirkungen und Risiken untersucht werden? Als Discounter für individualisierte Manipulation, als Werkzeug um noch mehr Arbeitsplätze austauschbar zu machen, … )
Hat jemand einen Vorteil von einem Missbrauch des KI-Systems? (Dagegen kann sich KI wahrscheinlich nicht wehren.)
Wurden der KI Grenzen für Ihre Entscheidungsfreiheit vorgegeben? Auch, wie sie sich verhalten soll, falls sie nicht weiter weiss? (KIs sind notorisch schlecht darin, ihr eigenes Unwissen zu beurteilen.)
Ist es überhaupt prinzipiell möglich, mit einem generativen KI-System Zuverlässigkeit, Vorhersagbarkeit oder Nachvollziehbarkeit zu erreichen? (Da jede Ausgabe vom Zufall abhängt, ist jede Ausgabe prinzipiell anders zustande gekommen als jede andere, auch wenn sie ähnlich klingt. Irgendeine Antwort könnte völlig anders sein, vielleicht getriggert von einem kleinen Tippfehler oder einer leicht anderen Schreibweise.) [Neu 2023-01-29]
Eine Nachbildung menschlichen Verhaltens ist schwierig. Nicht nur, weil auch das menschliche Verhalten nicht einfach zu erklären ist.
Solange interaktive KIs nur Text produzieren, ist der direkte physische Schaden begrenzt, auch wenn eine psychische Belastung/Schädigung möglich ist, insbesondere bei jungen oder labilen Personen).
Was passiert aber, wenn wir Künstliche Intelligenzen cyber-physikalische Systeme steuern lassen? (Smart Homes, Smart Cars, Unterstützungsroboter, bewaffnete Roboter, Atomkraftwerke, Chemieanlagen, …) Können wir die Risiken abschätzen? Auch die durch gezielte Angriffe gegen die KI?
Ist vielleicht eine Welt ohne Menschen, nur noch mit KIs, eine bessere Welt? Ist der Mensch, der „legacy human„, ein Auslaufmodell?

Die Technologie ist faszinierend, die Fortschritte der letzten Jahre grossartig. Am Werkzeug und seiner Sicherheit wird noch gearbeitet, so dass es hoffentlich irgendwann nicht mehr so einfach ist, sich damit unabsichtlich in den Fuss zu schiessen.

Doch wie bei jedem mächtigen neuen Werkzeug gilt auch hier: „With great power comes great responsibility.“ Ich hoffe, dass wir es als Menschheit schaffen, dieses Werkzeug zu unser aller Vorteil zu nutzen. Das bedingt aber den entsprechenden Willen. Von allen. Drücken wir die Daumen!

Weiterführende Texte

(Hier ein laufend aktualisierter Überblick über meine Texte zu Künstlicher Intelligenz.)

Marcel Waldvogel: Machine Learning: Künstliche Faultier-Intelligenz, DNIP, 2022-08-16.
Erklärt auf unterhaltsame Art und an Beispielen aus dem täglichen Leben, wie heutige Künstliche-Intelligenz-Systeme funktionieren (und wo und wieso sie an ihre Grenzen stossen).
Marcel Waldvogel: Reproduzierbare KI: Ein Selbstversuch (2022-11-09) und Reproducible AI Image Generation: Experiment Follow-Up (2022-12-01).
Versucht KI-generierte Bilder aufgrund ihrer (bekannten) Prompts unabhängig ebenfalls zu erzeugen. Neben vielen faszinierenden Bildern gibt es auch Erkenntnisse zu den Limiten der Bildgenerierung (und von Textverständnis).
Marcel Waldvogel: Identifikation von KI-Kunst (2023-01-26).
Woran kann man von KI-Software wie DALL•E 2 etc. erzeugte Kunst erkennen?
Lauren Leffer: CNET Is Reviewing the Accuracy of All Its AI-Written Articles After Multiple Major Corrections, Gizmodo, 2023-01-17.
Ein Online-Portal liess gewisse Artikel von ChatGPT schreiben und angeblich von Menschen korrekturlesen. Viele Artikel enthielten z.T. grobe faktische Fehler, die aber beim Überfliegen der Artikel nicht auffallen.
Ingrid Brodnig: Schreiben (fast) wie ein Mensch, Profil, 2023-01-18.
Was wir von ChatGPT über Textanalyse lernen können.
Beat Döbeli: ChatGPT & Schule, PHSZ, Arbeitsdokument.
Ein «Listicle on Steroids» von weiterführenden Informationen zu ChatGPT.
Dan Goddin: ChatGPT is enabling script kiddies to write functional malware, Ars Technica, 2023-01-06.
ChatGPT hilft unerfahrenen Programmierern beim Schreiben von Malware. (Andere Leute sagen, dass Malware bereits heute schon von Anfängern geschrieben werde.)
Kyle Wiggers: Code-generating AI can introduce security vulnerabilities, study finds, TechCrunch, 2022-12-28.
Programmierer, die ihre Programme mithilfe von KI-Tools schreiben, fügen häufiger Sicherheitslücken in ihren Code ein (Stanford-Studie mit Codex, der Engine hinter GitHub CoPilot.) [Neu 2023-06-02]
Thomas Claburn: Study finds AI assistants help developers produce code that’s more likely to be buggy, The Register, 2022-12-21.
Erwähnt neben der Stanford-Studie auch eine frühere NYU-Studie mit ähnlichem Ergebnis. [Neu 2023-06-02]
Nathan E. Sanders und Bruce Schneier: How ChatGPT Hijacks Democracy, New York Times, 2023-01-15.
Das automatisierbare, massenhafte Erzeugen von Posts und (Vernehmlassungs-)Antworten etc. als Hilfsmittel für die Verfälschung und Abwertung demokratischer Prozesse.
Jacob Browning und Yann LeCun: AI and the Limits Of Language, Noēma, 2022-08-23.
Wissen und Intelligenz sind nicht schon dann erreicht, wenn man die passenden Sätze ausspuckt. Und oft entsteht die Bedeutung des Texts erst durch den Leser; der von der KI ausgespuckte Text muss nicht intelligent (oder tiefgründig, korrekt oder humorvoll) sein, um als intelligent (oder tiefgründig, korrekt oder humorvoll) wahrgenommen zu werden.
Gary Marcus: Noam Chomsky and GPT-3, 2022-05-21.
Sprachmodelle sind keine Modelle der Realität.
Fatih Kadir Akın: Awesome ChatGPT Prompts, GitHub, Arbeitsdokument.
Eine grosse Sammlung von Prompts an ChatGPT, welche seine Möglichkeiten ausreizen.
Alden Analytics (ed.): Emergent Mind (previously LearnGPT), Arbeitsdokument.
Liste von herausragenden ChatGPT-Antworten.
Gary Marcus (ed.): ChatGPT/LLM Errors, Arbeitsdokument.
Liste von Fehlern, die ChatGPT und Freunde machen. Und hier der Artikel dazu.
Europarat: Artificial Intelligence, Übersichtswebseite.
Überblick über die Aktivitäten des Europarats im KI-Bereich.
Wikipedia: Artificial Intelligence Act, Arbeitsdokument.
Überblick über das Gesetzgebungsverfahren.
NIST: AI Risk Management Framenwork, Überblicksseite mit Link zum „AI RMF 1.0“-PDF vom 2023-01-26.
Überlegungen, wie man Risiken und Vertrauen bei KI managen kann: Gültigkeit, Zuverlässigkeit, Sicherheit in verschiedenen Blickwinkeln (Safety, Security, Resilience), Nachvollziehbarkeit, Transparenz, Verständlichkeit, Privatsphärefreundlichkeit und Fairness.
Philipp Hacker, Andreas Engel und Theresa List: Understanding and Regulating ChatGPT, and Other Large Generative AI Models, Verfassungsblog, 2023-01-20.
Die aktuellen und die noch fehlenden rechtlichen Rahmenbedingungen für KI in der EU.
Christian Spannagel: ChatGPT und die Zukunft des Lernens: Evolution statt Revolution, Hochschulforum Digitalisierung, 2023-01-24.
Fundierte Diskussionen dreier Ansätze zum Umgang mit ChatGPT und Freunden in der Lehre.
Michael Kroker interviewt Robert Lepenies: „Das Tool deckt auf, was im Wissenschaftsbetrieb falsch läuft“, WirtschaftsWoche, 2022-12-15.
Einige Probleme der Hochschule mit ChatGPT, aber auch neue Möglichkeiten für das Lernen und Prüfungen („Bewerten sie diese 3 KI-Outputs“).
Iris van Rooij: Critical lenses on ‘AI’, 2023-01-29.
Ein Überblick über kritische Einordnungen zu dem was uns aktuell als „Künstliche Intelligenz“ verkauft wird.

Werkzeuge

GPTZero: Analysewerkzeug, um von ChatGPT generierten Text zu identifizieren. (Funktionsweise und Einschränkungen.)
LangChain: Ein Meta-Tool, welches Textverständnis und -generierung von ChatGPT mit faktenbasierten Diensten kombiniert. (Basierend auf einer Idee von Stephen Wolfram zur Kombination von ChatGPT mit Wolfram Alpha.)
Wegweiser für generative KI-Tools: Einige nützliche Werkzeuge, um die Bandbreite aufzuzeigen.

7 Antworten

Jacqueline Buchser sagt:

28. Januar 2023 um 11:08 Uhr

Eindrücklich, humorvoll und vor allem auch für einen Laien wie mich verständlich ausformuliert. Diese fehlenden 10%, die dann zu noch 1/3 der Wahrheit führen haben mich erschreckt. Schlimmer als Deviation (z.Bsp. beim Segeln) nicht einzukalkulieren. Wie geht ein Otto Normalverbraucher (wie ich) damit um? 🤪

Antworten
1. Marcel Waldvogel sagt:
  
  30. Januar 2023 um 15:42 Uhr
  
  Mit Medienkompetenz: Beurteilen können, ob etwas stimmen kann und dann über weitere Quellen verifizieren. (Wäre schön, wenn wir den Aufwand nicht treiben müssten, aber ich befürchte, dass wir keine andere Wahl haben als das manchmal selbst zu tun.)
  
  Antworten
Nicolas Dierks sagt:

30. Januar 2023 um 15:36 Uhr

Danke für diesen detaillierten Artikel – die Tests und die Fragen und Analysen in vielen Bereichen. Viele der Fragen zum Schluss können vor diesem Hintergrund besser in der öffentlichen Diskussion behandelt werden. Möge der Artikel also viele Leserinnen und Leser finden!

Antworten
1. Marcel Waldvogel sagt:
  
  30. Januar 2023 um 15:40 Uhr
  
  Das ist auch unser Ziel bei DNIP: Die Leserschaft (nicht nur die Geeks) mit dem notwendigen Wissen auszustatten, 9damit sie an den demokratischen und wirtschaftlichen Entscheiden zur Digitalisierung und Digitalpolitik aktiv mitgestalten können. Es freut mich zu hören, dass wir dieses Ziel erreichen!
  
  Antworten
Simon Clematide sagt:

2. Februar 2023 um 13:41 Uhr

Kleiner Korrekturvorschlag (encoder mit decoder verwechselt in untenstehendem Zitat) :
Zitat: „„Generierend“ deshalb, weil die Mitglieder der GPT-Familie nur einen Teil der Transformer-Funktionalität nutzen, nämlich die Textgenerierung („encoder“). Die Komponente für das Textverständnis („decoder“) wird komplett weggelassen, so absurd es klingen mag. “

Wie im andern Text (http://dnip.ch/2023/01/30/wie-funktioniert-eigentlich-chatgpt/) eigentlich korrekt beschrieben, benutzt GPT nur den Decoder der ursprünglichen Transformerarchitektur. Im obigen Zitat hat einen Vertipper drin, der irritierend sein kann.

Antworten
1. Marcel Waldvogel sagt:
  
  2. Februar 2023 um 17:09 Uhr
  
  Danke vielmals! Ich habe es korrigiert.
  
  Antworten
Pingback: KI-Vergiftung – Marcel Waldvogel