DNIP Briefing #22: Unersättlicher Datenhunger

Die Redaktion präsentiert jeden Dienstag die Geschichten, die sie bewegt, aufgerüttelt oder zum Nachdenken angeregt hat.

Schon im letzten Briefing haben wir erwähnt, dass OpenAI darüber nachdenkt, ein eigenes soziales Netzwerk aufzubauen. In der Zwischenzeit hat OpenAI auch Interesse daran geäussert, den Chrome-Browser zu übernehmen, falls Google dieses als Folge des Antitrust-Verfahrens abgeben muss. Und auch der CEO von Perplexity hat angekündigt, einen eigenen Browser entwickeln zu wollen oder Chrome zu übernehmen (und ist damit in guter Gesellschaft. Selbst Yahoo (ja, die gibt es noch) hat Interesse geäussert. Falls sich jemand fragt, woher dieses Interesse kommt: Der Perplexity-CEO liefert die Begründung dazu gleich mit:

One of the other reasons [besides better ad targeting] we [Perplexity] wanted to build a browser is, we want to get data even outside the app to better understand you.

In etwa: «Ein Grund [neben teureren Werbeplätzen], warum Perplexity einen eigenen Browser entwickelt, besteht darin, Daten auch über das zu sammeln, was Benutzer ausserhalb der Perplexity-App tun.»
Aravind Srinivas im Interview mit TBPN, 2025-04-23. Start des Zitats bei 43:25.

Natürlich wird dies damit begründet, dass die AI mit mehr Daten auch besser in der Lage sein wird, den Benutzern gute Antworten zu geben und AI-Agenten die Wünsche der Benutzer so besser erfüllen können.

Erhellend ist aber, dass der Perplexity-CEO unmittelbar vor dem obigen Zitat erzählt, dass super-personalisierte Werbung extrem lukrativ sei. Das dürfte sicher auch ein gewichtiger Grund sein.

Übrigens: Perplexitys Motto beim Abgrasen («Scrapen») von Webseiten scheint auch zu sein, «gib mir deine Daten freiwillig, sonst hole ich sie mir halt mit anderen Mitteln».

Nebenbei gesagt: Apple ist bisher damit gescheitert, Siri privacy-freundlich so weiterzuentwickeln, dass es alle auf einem iPhone verfügbaren User-Daten für «intelligente» Antworten verwendet. Es braucht daher wenig Fantasie, um sich auszumalen, dass Themen wie Datenschutz und Privatsphäre bei den Ansätzen von OpenAI und Perplexity wohl auf der Strecke bleiben werden.

Natürlich wäre es schön, wenn der Bundesrat bei der Datennutzung durch KI und personalisierter (politischer) Werbung die Interessen der Schweizer Bevölkerung schützen würde. Träumen wird man ja wohl noch dürfen …

Inhalte

Wikipedia aushungern?

Wer hat noch eine Enzyklopädie in Buchform im Regal? Wahrscheinlich die wenigsten von uns. Die Suchmaschine deines Vertrauens oder ein KI-Chatbot sind wohl inzwischen viel beliebter. Und viele davon verweisen oder basieren auf Wikipedia. Und die ist der US-Regierung und anderen Republikanern schon länger ein Dorn im Auge. Sei es nur, weil in der Aufzählung der Gründe für die Bekanntheit von Donald Trump «media personality» vor «businessman» auftaucht und das (ich wünschte, ich würde das erfinden!) als ers t er Beweis für die Einseitigkeit der Wikipedia herhalten muss.

Nun sieht der Bundesstaatsanwalt von Washington, DC seine Chance: Er möchte die Steuerbefreiung der Wikimiedia Foundation, der Organisation hinter Wikipedia & Co, aufheben. Unter anderem, weil – sollte Wikipedia wirklich einseitige Informationen beinhalten – dies die Qualität der KI-Modelle beeinträchtigen könnte, die Wikipedia als kostenlose Quelle nutzen. (Auch das muss man sich zuerst auf der Zunge vergehen lassen: Dass nicht die KI-Firmen für die Qualitätssicherung zuständig seien, sondern jede Webseite, die sich nicht explizit und wirksam gegen die Durchsuchung durch KI-Bots wehrt.)

Eine andere hanebüchene Aussage aus dem Brief des Staatsanwalts:

It has come to my attention that the Wikimedia Foundation, through its wholly owned subsidiary Wikipedia, is allowing foreign actors to manipulate information and spread propaganda to the American public. Wikipedia is permitting information manipulation on its platform, including the rewriting of key, historical events and biographical information of current and previous American leaders, […]

In etwa: «Es ist uns zu Ohren gekommen, dass die Wikimedia Foundation, durch ihre Tochter Wikipedia, es ausländischen Akteuren erlaubt, Informationen zu verändern und so die Amerikanische Öffentlichkeit Propaganda auszusetzen. Wikipedia erlaubt die Veränderung von Informationen auf ihrer Plattform, inklusive dem Umschreiben von historischen Schlüsselereignissen und biografischen Informationen von aktuellen und früheren Amerikanischen Führungspersönlichkeiten, […]»

Und das ausgerechnet von der Regierung, die tausende von Webseiten löschen oder ändern lässt. Weil sie beispielsweise über historische Rassendiskriminierung berichten. Oder Worte wie «Fairness» beinhalteten. Oder erfolgreiche Wissenschaftlerinnen erwähnten.

Wahrscheinlich wird es auch diesmal im Sand verlaufen. Aber wir dürfen uns nicht mehr darauf verlassen. Vielleicht müsste man auch hier die Abhängigkeit von US-Institutionen verringern, wie auch beim Internet-Archiv.

Und schliesslich

Natürlich wissen wir eigentlich, dass vieles rund um die Datensammelpraktiken hinter diesen goldglänzenden KI-Systemen düster aussieht. Rest Of World hat das Outsourcing-Netzwerk der Big-Tech-Firmen nach Afrika nun zum besseren Verständnis visualisiert.
Im Laufe der Zeit wurden Techniken vorgestellt, die es erschweren sollen, dass KI-Bildgeneratoren aus Online-Bildern lernen. Wahrscheinlich sind diese aber grösstenteils nutzlos. Nun ist ein Ansatz aufgetaucht, mit dem Texte in Video-Untertiteln vor KI-Scraping geschützt werden könne. Die Idee ist vergleichbar mit dem Platzieren von unsichtbarem Text auf Webseiten oder in PDFs. Und damit wahrscheinlich – gegen dedizierte Tools – wahrscheinlich auch nur von kurzer Dauer. Und kaum mehr als ein nettes Spielzeug.
Wer schon immer mal in die geheimen Gruppenchats der Mächtigen und Milliardäre dieser Welt hereinschnuppern möchte: Die Reportage von Semafor erlaubt eine kurze Momentaufnahme.
Quad9, der internationale DNS-Anbieter mit Sitz in der Schweiz, hat Grafiken aus seinen spanischen und portugiesischen Datenzentren veröffentlicht. Ganz klar ist da ein plötzlicher Einbruch der Anfragen am 28. April zu sehen, als in beiden Ländern grossflächig der Strom ausgefallen ist. Scheinbar haben die unterbruchsfreien Stromversorgungen und Dieselgeneratoren an den drei Standorten funktioniert. Am Einbruch klar erkennen kann man, dass viele Nutzer und Internetverbindungen aber eben nicht so gut vorbereitet waren. Wie im Wallis werden da verschiedene Firmen ihren Umgang mit Stromausfällen und anderen Pannen («Disaster Recovery», «Business Continuity Management») in den nächsten Tagen und Wochen überprüfen und überdenken.

Das Zitat der Woche

IT-Sicherheit ist schwierig. Weil es uns niemand einfach macht.

Most people and organizations can’t secure themselves

It’s not their fault

Wendy Nather, 2025-04-19, an einer Keynote

Ach ja …

Wenn ihr euch wundert, dass dieses Briefing kürzer ist als das letzte: Die DNIP-Redaktion schreibt fleissig an längeren Artikeln. Freut euch darauf!

10 Kommentare

Stefan Daehler sagt:

29. April 2025 um 09:17 Uhr

„… wie auch beim Internet-Archiv.“
Da gehen bei mir die Alarmglocken an …
Wusste ich gar nicht, ich war immer der Meinung, archive.org sei gemeinnützig. Etwas Nachhilfe in Bezug auf die erwähnte US-Abhänigkeit würde ich sehr schätzen. Merci!

Antworten
1. Marcel Waldvogel sagt:
  
  29. April 2025 um 13:44 Uhr
  
  Das Internet-Archiv ist zwar eine gemeinnützige Organisation. Ihr Hauptsitz ist in San Francisco und die meisten ihrer Datenzentren stehen in den USA. Es hat auch etwas Kanada, Europa und Ägypten dabei, aber unter Administration aus den USA. Da könnten Forderungen der Regierung aber auch die laufende 700-Millionen-Klage den Garaus bedeuten.
  
  Es gibt auch dezentrale Archive, häufig bei staatlichen Bibliotheken oder Archiven angesiedelt. Aber deren Auftrag ist vorwiegend auf vergleichsweise wenige Webseiten beschränkt. (In der CH das Bundesarchiv, in BaWü das BSZ.)
  
  Antworten
  1. Stefan Daehler sagt:
    
    29. April 2025 um 15:55 Uhr
    
    Vielen Dank!
    
    Antworten
Rene Tschaggelar sagt:

29. April 2025 um 11:18 Uhr

Die Aussage dass der Quad9 DNS in Spanien laeuft, oder beim Blackout lief haengt etwas in der Luft. Dazu muesste man wissen, wie der angeschlossen ist. Per Satellit, oder per Kabel, resp Glasfaser ? Was haengt da noch dran. Nicht ganz gut informiert, nehme ich an, dass eine Netz-(wieder-)Einschaltung ohne Internet sowieso nicht funktioniert. Frueher gab’s mal (prioprisierte) Standleitungen der Telekom Gesellschaften. Das wurde glaub alles durch Internet ersetzt. Wie die letzt- oder vorletzt jaehrige Flutkatastrophe in Deutschland zeigte. sind Notfalldienste nicht immer so aufgesetzt wie sie sein sollten.
Frueher.. vor 2000 .. hatten wir eine Glasfaser Infrastruktur zusammen mit unserer Strom und Bahn Infrastruktur. Heisst, neben der Bahn und in den Hochspannungskabeln laufen Glasfasern mit. Die liefen damals unter Diax, und wurden nachher an Salt oder Sunrise verscherbelt. Wobei genau unter diesem Kontext interessant waere, ob diese Firmen lediglich die unbenoetigten Uebertragungs Leistungen kauften, dh die Notfallfaehigkeit erhalten blieb, oder effektiv Eigentuemer der Infrastruktur wurden.
Die paar Glasfasern zur Infrastruktur kann man auch ab Batterie laufen lassen. Richtiges Notfallmanagement vorausgesetzt.

Antworten
1. Marcel Waldvogel sagt:
  
  29. April 2025 um 13:51 Uhr
  
  Quad9 pflegt eine Liste ihrer POPs, dazu gehörden Barcelona, Madrid und Lissabon. Ein DNS-Dienst funktioniert nur sinnvoll, wenn er mit niedriger Latenz angebunden ist. In der Praxis bedeutet das viele dezentrale POPs an gut vernetzten Standorten, angebunden mit Glasfaser.
  
  Entlang Infrastrukturstrecken werden Glasfasern in Bündeln verlegt. Im Seekabel durch den Bodensee (wovon ich ein Stück in meinem Büro hatte), waren das 192 Fasern. Die Fasern sind nicht das Problem, aber an den Schaltstellen und spätestens alle rund 200 km brauchst du Strom. Und sinnvollerweise dann gleich für alle Fasern, nicht nur für einzelne (der Zusatzaufwand ist nicht so gross).
  
  Antworten
Matthias Gockel sagt:

29. April 2025 um 17:54 Uhr

Für die, die es noch nicht wissen: Wikipedia ist keine seriöse Enzyklopädie und nur in Teilen zuverlässig. Das liegt u. a. an der Rudelbildung unter dem Schutz der Anonymität, aber auch an den kuriosen methodischen Regeln, die Sekundärquellen gegenüber Primärquellen bevorzugen. So gelten Produkte der Leitmedien generell als zuverlässig, egal von wem sie stammen und wie tendenziös sie sind, während das Anführen von Fachartikeln abgelehnt werden kann.

Antworten
1. Patrick Seemann sagt:
  
  29. April 2025 um 20:55 Uhr
  
  Es ist bewährte journalistische Praxis, dass Dinge erst dann als Fakten dargestellt werden, wenn sie von mindestens zwei (voneinander unabhängigen) Quellen bestätigt wurden. Grundsätzlich ähnliches würde ich von einer Enzyklopädie (wie das Wikipedia ja ist) auch erwarten. Ob bei abgelehnten Edits jeweils Rudelbildung oder ähnliches vorliegt, müsste man wohl im Einzelfall anschauen.
  
  Antworten
Matthias Gockel sagt:

30. April 2025 um 11:16 Uhr

Bei Wikipedia reicht eine „reputable“ Quelle als Beleg. Journalistische Produkte gelten auch dann als „reputabel“, wenn es sich um Berichte mit Wertungen – also nicht nur Darstellung von Ereignissen – handelt. Und ja, die Einzelfallprüfung ist wichtig. Beim Eintrag „Donald J. Trump“ sind vermutlich mehrere Rudel am Werk, die sich geegenseitig bekämpfen! Es gibt auch mehrere Veröffentlichungen zu dem Thema, z. B. Schwarzbuch Wikipedia (2 Bände, 2020 und 2023, Hg. A. Mäckler).

Antworten
Stephan sagt:

30. April 2025 um 14:02 Uhr

Dem Zitat kann ich nicht zustimmen. Wer nicht in der Lage ist, IT sicher zu betreiben, sollte keine betreiben dürfen. Das gilt wie für Fahrzeuge im Strassenverkehr.

Antworten
1. Patrick Seemann sagt:
  
  30. April 2025 um 14:41 Uhr
  
  Lese das Zitat anders: Im Strassenverkehr gibt es Zulassungsregeln, regelmässige Fahrzeugkontrollen und hin und wieder sogar Rückrufe. In der IT gibt es nichts dergleichen, da wird der Kunde mit einem (schlussendlich nie 100% fehlerfreien) Produkt alleine gelassen und muss sich sogar selber um die Updates kümmern (so es welche gibt).
  
  Antworten

Schreibe einen Kommentar Antwort abbrechen

Weitere Beiträge

Ein rundes Backsteingebäude mit vielen regelmässig angeordneten Fenstern

DNIP Briefing #65: Überwachte neue Welt

Die Redaktion 24. März 2026

Die Redaktion präsentiert jeden Dienstag die Geschichten, die sie bewegt, aufgerüttelt oder zum Nachdenken angeregt hat. Heute u.a. mit Überwachung,

Vogt am Freitag: Glashaus

Reto Vogt 20. März 2026

80 Milliarden Dollar Verlust und kein Rücktritt: Mark Zuckerberg beerdigt das Metaverse, um die nächste Ära einzuläuten. Kolumnist Reto Vogt