KI-Texte fluten das Internet – und bedrohen so die nächste Generation der KI-Modelle

Künstliche Intelligenz braucht echte Texte und Bilder, um sich weiterzuentwickeln. Doch menschliche Daten sind endlich. Firmen suchen verzweifelt nach Lösungen.

Wenn künstliche Intelligenz Hände zeichnet, ist das Resultat bisweilen verstörend. Die Zahl der Finger ist falsch, die Handgelenke sind unnatürlich verbogen.

pic.twitter.com/V1Yiwj7aum

— no context memes (@weirddalle) January 22, 2023

Der Grund dafür ist einfach: Künstliche Intelligenz (KI) kann nur aus Beispielen lernen. Sie «weiss» nicht, wie viele Finger Menschen haben. Sie kennt nur sehr viele Bilder von Menschen. Und während auf solchen Bildern Gesichter sehr oft zu sehen sind, kommen Hände seltener vor – zudem in unterschiedlichen Positionen, oft ist nur ein Teil der Finger sichtbar. Deshalb ist es nicht überraschend, dass Hände aus der KI oft monströs aussehen, Gesichter aber sehr gut.

Man könnte in dem Beispiel «Hände» durch jeden Sachverhalt ersetzen, der im Internet nicht oft und konsistent vorkommt. Mit all diesen Dingen tut sich KI schwer. Immer wieder erfindet sie Fakten oder eben Gliedmassen.

Manche Forscher glauben, dass sich diese sogenannten Halluzinationen mit mehr Übungsdaten verringern lassen. Schliesslich ist KI in den letzten Jahren nicht durch neue Erfindungen mächtiger geworden, sondern durch immer mehr Übungsbeispiele und aufwendigeres Training. Die für Sprach-KI genutzte Datenmenge ist exponentiell gewachsen.

Heutige KI hat bei ihrem Training schon einen Grossteil des Internets gesehen. Wikipedia, Chat-Foren und digitalisierte Bücher sind bereits verarbeitet. Dazu mischt sich unter die Daten im Internet immer mehr KI-gemachtes Material. Aber was, wenn KI aus Daten lernt, die Halluzinationen beinhalten?

Künstlich dumm

Eine Serie zu der Frage, ob künstliche Intelligenz das Internet kaputtmacht.

Alle Artikel dieser Serie anzeigen

Nicolas Papernot von der Universität von Toronto, Kanada, hat gemeinsam mit anderen Forschern untersucht, was passiert, wenn KI von KI lernt. KI mit KI-generierten Daten zu trainieren, sei ein bisschen wie Fotokopien von Fotokopien machen, sagt er. Man entferne sich immer weiter vom Original.

Er erklärt: «Stellen Sie sich vor, Sie bauen eine KI, die Bilder von Katzen generiert. Sie trainieren sie mit 100 Katzenbildern, davon sind zehn Katzen blau und 90 gelb. Wenn diese KI Katzenbilder generiert, werden die blauen Katzen gelblich aussehen, weil in den Übungsdaten viel mehr gelbe Katzen vorkommen. Wenn man aus diesen Katzenbildern ein neues KI-Modell macht, werden dessen blaue Katzen noch etwas gelber sein. Wenn man so weitermacht, wird die KI irgendwann gar keine blauen Katzen mehr erzeugen.»

Papernot und seine Kollegen haben diesen Moment den «Kollaps des KI-Modells» getauft: den Punkt, ab dem die KI so viele Details verloren hat, dass ihre Erzeugnisse nicht mehr die Verteilungen der Realität widerspiegeln. «Dieser Effekt führt zu Ungenauigkeiten und zu Diskriminierung von Minderheiten», sagt Papernot.

Durch künstlich generierte Daten lernte KI das Spiel Go

Dabei brachten synthetische, also mit Computern erstellte Trainingsdaten durchaus Erfolge. Zum Beispiel hat das KI-Programm Alpha-Go der Firma Deepmind seine Fähigkeiten im Brettspiel Go verbessert, indem es millionenfach gegen sich selbst gespielt hat.

Kenner des Brettspiels waren begeistert und auch schockiert, als Alpha-Go 2016 in der Partie gegen den Go-Weltmeister Lee Sedol einen Zug machte, den kein menschlicher Spieler je gesehen hatte. Die Episode zeigt das Potenzial von synthetischen Daten: echte, kreative Innovation aus der KI.

Aber bei Sprache und Bildern klappt die Sache nicht. Denn sie funktionieren ganz anders als ein Spiel. Spiele wie Go haben Regeln. Texte und Bilder der Welt sind viel komplexer. Es gibt keine Liste mit Regeln, die sie definieren. Und während man Spielzüge danach bewerten kann, wie viel Erfolg sie bringen, gibt es in vielen Feldern keine Möglichkeit, die Qualität des KI-Erzeugnisses klar zu bewerten.

Das Innovative an Systemen wie Chat-GPT ist sogar, dass sie Sprache allein aus Beispielen lernen, ohne Regeln. Doch ohne Regeln lassen sich auch keine hilfreichen synthetischen Daten erzeugen.

Pablo Villalobos vom Forschungsinstitut Epoch AI, das sich mit wichtigen Kennzahlen für KI-Fortschritt beschäftigt, sieht Potenzial bei synthetischen Daten für spezifische Anwendungen in Mathematik oder Informatik. Denn dort ist klar überprüfbar, was die Qualität der generierten Daten ist. Es gibt messbaren Fortschritt, das kann man optimieren. Viel schwieriger sei es, echtes Urteilsvermögen aus synthetischen Daten zu lernen.

Nicolas Papernot kennt die Grenzen synthetischer Daten aus der Praxis, durch seine Forschung im Bereich KI und Privatsphäre: «Synthetische Daten sind der heilige Gral in diesem Feld.» Jahrzehntelang hätten Forscher daran gearbeitet, beispielsweise um KI im Gesundheitsbereich erzeugen zu können, ohne der Privatsphäre der Patienten zu schaden.

«Qualitativ hochwertige Daten, die nichts mit einzelnen Personen zu tun haben, würden die Forschung extrem bereichern.» Doch bisher sind noch alle daran gescheitert, synthetische Daten in ausreichender Qualität zu erzeugen. Inzwischen forschen die meisten an anderen Methoden, um die Privatsphäre der Datenquellen zu schützen.

Für den Mangel an Trainingsdaten bedeutet das also: Künstliche Daten werden ihn wohl nicht lösen.

KI-Unternehmen zapfen fragwürdige Datenquellen an

Deshalb sehen sich KI-Unternehmen nun nach anderen Datenquellen um. Der Facebook-Konzern Meta kam in Konflikt mit den Behörden der EU, weil er die Bilder und Posts seiner Nutzer in seine KI einfliessen lassen wollte. In anderen Weltregionen ohne Datenschutzregeln hat er das schon getan.

Die KI-Firma Open AI hat laut einer Recherche der «New York Times» Unmengen an Youtube-Videos transkribiert, höchstwahrscheinlich illegal, um genug Trainingsmaterial für GPT-4 zu bekommen. Und Google hat seine Nutzungsbedingungen geändert, offenbar, um auch Restaurantkritiken und öffentliche Google-Docs in seine KI einfliessen lassen zu dürfen.

Die Unternehmen zapfen alles an, was sie finden können. Denn die Zeit drängt. Nach Schätzungen des Forschungsinstituts Epoch AI wird bereits im Jahr 2028 öffentliches menschengemachtes Material nicht mehr ausreichen, um bessere KI zu trainieren.

Blogs und Medien leiden unter KI-Konkurrenz

Und diese Projektion schliesst noch gar nicht ein, wie generative KI selbst das Angebot im Internet verändert. Wenn Nutzer nur noch Chatbots befragen, anstatt im Internet zu surfen, bringt das Websites in Bedrängnis, die sich durch Klicks finanzieren, ob es nun Online-Magazine, Hobby-Websites oder Foren sind. Es sinkt der Anreiz, dort zu posten. Und damit geht den Tech-Firmen wieder die Quelle verloren.

Besonders gut zeigt dies das Beispiel von Stack Overflow, einem Forum, auf dem sich Programmierer gegenseitig bei Problemen helfen. Früher postete man seine Fragen dort und hoffte auf die Antwort von Experten. Diese Beispiele dienten als Trainingsmaterial für KI-Programmier-Assistenten. Und diese machen heute wiederum das Fragen und Antworten auf dem Forum obsolet.

Die Techfirmen reagieren, indem sie mit Foren wie Stack Overflow und Reddit Kooperationen eingehen, Verträge mit Medienunternehmen unterschreiben, in denen festgehalten ist, dass sie für das Nutzen neuer Artikel etwas bezahlen. Es ist aber mehr als fraglich, ob das ausreicht, um die Umbrüche auszugleichen, die KI in der Internet-Ökonomie anrichtet.

Für die Entwicklung von künstlicher Intelligenz bedeutet das: Es sind neue Ansätze gefragt. Das Potenzial durch immer grössere Modelle wird an sein Ende kommen. Und zwar nicht nur aufgrund der Daten. Wenn die KI-Modelle weiterwüchsen wie bisher, müsste ein signifikanter Teil der globalen Finanzen für Chips ausgegeben werden, sagt Villalobos von Epoch AI. «Dazu steigen der Energieaufwand und die Netzwerkkomplexität. All das steht vor der Explosion.»

Die verschiedenen Engpässe werden wohl dazu führen, dass sich KI-Forschung wieder stärker mit Methoden beschäftigt. Neue Ansätze sind gefragt, um effektiver zu lernen, also mehr Information aus den existierenden Daten zu ziehen.

Künstlich dumm

Eine Serie zu der Frage, ob künstliche Intelligenz das Internet kaputtmacht.

Im Trend

Investieren: Machen Sie es am besten wie die Toten

Alinghi will nichts mehr vom America’s Cup wissen – das ganze Team wird aufgelöst

Spitzengehälter: Das grosse Geld winkt am langen Ende

Künstlich dumm

Durch künstlich generierte Daten lernte KI das Spiel Go

KI-Unternehmen zapfen fragwürdige Datenquellen an

Blogs und Medien leiden unter KI-Konkurrenz

Künstlich dumm

Die Tech-Firmen haben auf Trump gesetzt. Das rächt sich nun. Europa verliert das Vertrauen

KI klingt immer menschlicher? Fünf Gründe, warum unsere Sprache trotzdem ganz anders funktioniert als jene der Maschine

Der Nato-Generalsekretär warnt vor russischen Atomwaffen im Weltraum. Was wären die Folgen?

Dieser Supercomputer ist dem menschlichen Gehirn nachempfunden – und könnte das Energieproblem von KI lösen

Trumps Handelskrieg mit China könnte Apple hart treffen. Wäre ein iPhone «made in America» die Lösung?

Russische Agenten versuchen, mit einer Flut von Propaganda-Texten westliche KI-Chatbots zu infiltrieren. Meist ohne Erfolg

Im Trend

KI-Texte fluten das Internet – und bedrohen so die nächste Generation der KI-Modelle

Künstlich dumm

Durch künstlich generierte Daten lernte KI das Spiel Go

KI-Unternehmen zapfen fragwürdige Datenquellen an

Blogs und Medien leiden unter KI-Konkurrenz

Künstlich dumm

Weiter Lesen