Sonntag, November 24

Sprach-KI wird mit Unmengen Texten hergestellt, ohne die Einwilligung der Urheber. Nun klagen diese. Vom Ergebnis könnte die Zukunft des Journalismus abhängen.

Die «New York Times» hat Microsoft und Open AI verklagt, wegen ihres Chatbots Chat-GPT. Die Tech-Firmen hätten Millionen von Artikeln ohne Erlaubnis benutzt, um den Chatbot zu trainieren.

Dies ist nicht die erste Klage gegen Hersteller von generativer künstlicher Intelligenz (KI). Doch sie ist besonders schwerwiegend. Es liegen ihr hundert Beispiele bei, in denen Chat-GPT ganze Artikel der «New York Times» Wort für Wort wiedergegeben haben soll – ohne Quellenangabe.

Dies sei ein Beweis dafür, dass die Tech-Firmen mit dem «New York Times»-Material widerrechtlich ein Konkurrenzprodukt aufbauten, steht in der Klageschrift. Sie verlangt Entschädigung und einen Zerstörungsbefehl für alle KI-Produkte, die mit «New York Times»-Material hergestellt wurden. Das würde de facto Chat-GPT, Bing und alle anderen bestehenden KI-Produkte umfassen.

Warum die KI ganze «New York Times»-Texte ausspuckt

«Move Fast and Break Things», «Bewege dich schnell, und mache Dinge kaputt» ist das Leitmotiv des Silicon Valley. Bei KI hielten sich viele Firmen besonders genau daran. Sprach-KI war bis vor kurzem ein Nischenthema für Forscher. Sie experimentierten, wie man Computern mithilfe von grossen Datenmengen Sprache und Wissen beibringen könnte.

Als Quelle nützte man frei verfügbare Datensätze mit Namen wie «Common Crawl», «Webtext», «Books1» und «Wikipedia». Die Texte darin werden automatisiert aus dem Internet abgegriffen. Sie umfassen Internetforen, Wikipedia-Einträge, aber eben auch Bücher und Zeitungsartikel. Dass diese ohne Lizenz genutzt wurden, störte keinen, solange KI eine Sache der Wissenschaft war.

Doch jetzt ist KI ein Geschäft. Tech-Firmen verkaufen Zugänge an Firmen und Privatkunden. Das Tech-Magazin «The Information» schätzte im August, dass Open AI in einem Jahr eine Milliarde US-Dollar umsetzen würde. Der Wert der Firma wird auf etwa 90 Milliarden Dollar geschätzt. Der Hauptinvestor Microsoft legte an Börsenwert zu.

Autoren klagen, Axel Springer und AP schliessen Deals ab

Die Urheber der Daten gingen hingegen leer aus. Nun setzen sie zur Gegenwehr an: Prominente Schriftsteller haben bereits Klage gegen Open AI eingereicht. Künstler und Bildagenturen gehen gegen bildgenerierende Programme vor, die auf ihren Werken basieren.

Die Klage der «New York Times» ist die erste eines grossen Medienhauses. Mit anderen Medien hat Open AI Deals abgeschlossen, um Klagen vorzubeugen und die Zusammenarbeit zu sichern. Die Nachrichtenagentur Associated Press (AP) bekam für den offiziellen Zugang zu ihrem Archiv eine unbezifferte Summe und Zugang zu Open-AI-Technologie.

Der Axel-Springer-Medienkonzern, zu dem «Bild», «Die Welt», «Business Insider» sowie «Politico» gehören, ist ebenso im Geschäft mit Open AI, wie vor zwei Wochen bekanntwurde. Ab 2024 sollen die Springer-Inhalte prominent, und mit Link auf die Quelle versehen, in den Antworten des Chatbots erscheinen, berichtete Reuters. Wie viel Open AI bezahlte, ist auch in diesem Fall nicht bekannt.

Auch die «New York Times» hatte mit Open AI verhandelt. Offenbar war sie mit den Bedingungen nicht zufrieden. Nun könnte sie sich bessere erstreiten, vor Gericht oder durch eine aussergerichtliche Beilegung.

Die «New York Times» pocht auf den Wert ihrer Daten

Tatsächlich haben die Anwälte der «New York Times» eine substanzielle Klageschrift zusammengestellt. Das liegt nicht nur an den vielen Beispielen, die zeigen, wie der Chatbot ganze Artikel der «New York Times» wiedergibt. Das Medienhaus argumentiert auch mit dem Stellenwert seiner Daten beim Training von Chat-GPT.

Training nennt man die Methode, mit der Sprachmodelle erzeugt werden. Man legt dem Algorithmus Unmengen an Texten vor. Dabei werden manche Wörter verdeckt. Der Algorithmus versucht, sie vorherzusagen. Wenn es ihm glückt, wird er belohnt. Über die Zeit lernt die KI so, welche Wörter in welche Kontexte passen. Das funktioniert gut, so dass sie nach dem Training ganze Texte schreiben kann.

Wer will, dass die KI auch über Fakten in der echten Welt schreiben kann, und nicht nur aus Kochrezepten und Diskussionen in Onlineforen zitiert, für den ist relevant, dass sie auch mit Artikeln über die echte Welt gefüttert wird. Darauf baut die Klage der «New York Times».

Tatsächlich ist die Website der Zeitung im Datensatz Common Crawl die dritthäufigste Quelle, nach dem amerikanischen Patentamt und Wikipedia. Heute schweigt Open AI zwar dazu, welche Daten ihre KI nutzt. Doch die Klageschrift zitiert einen Open-AI-Aufsatz von 2020, der angibt, dass Common Crawl die wichtigste Datenquelle für GPT3 war, also für den direkten Vorgänger der heutigen Sprachmodelle.

Die Klageschrift argumentiert nun, dass dieses Nutzen der Daten ohne Einverständnis des Copyright-Besitzers «New York Times» widerrechtlich sei.

Ein Gegenargument lautet, dass Leistungsschutz- und Urheberrecht beim KI-Training nicht zur Anwendung kommen sollten. Solche Ausnahmen beim Copyright bestehen, wenn der Zweck eines Inhalts bei der Kopie stark vom Original abweicht, damit es möglich ist, Werke zu zitieren. Inwiefern auch KI-Training zulässig ist, ist rechtlich nicht geklärt.

Der Fall wirft eine Frage auf, die sich bei vielen KI-Anwendungen stellt: Wer hat das Recht, mit KI Geld zu verdienen, die auf den Daten anderer Menschen und Firmen beruht? Der Fall stellt aber auch das neueste Kapitel im anhaltenden Konflikt zwischen Tech- und Medienfirmen dar.

Tech-Konzerne und Medien streiten schon länger um Inhalte

Durch den Wechsel ins Digitale sind den Medien grosse Teile ihrer Werbeeinnahmen verlorengegangen. Werbung wird heute vor allem online geschaltet, und dabei verdienen vor allem Google und Meta. Diese weggefallenen Einnahmen müssen Medienhäuser wettmachen.

Dabei schielten manche auf die Gewinne der Tech-Konzerne: Weil Google und Facebook von Medieninhalten auf ihren Plattformen profitierten, sollten sie eine Gebühr für die kleinen Vorschau-Schnipsel zahlen, auch «Linksteuer» genannt, so die Befürworter. In manchen Ländern wurden entsprechende Regeln eingeführt.

Die Klageschrift der «New York Times» hebt sich explizit davon ab. Sie zeigt einerseits den Link mit Schlagzeile und kurzer Vorschau, welchen man auf einer Suchmaschine findet. Das sei legitim. Dem gegenüber stellt sie das, was der Bing-Chatbot produziert: eine ausführliche Zusammenfassung des erfragten Artikels ohne prominenten Link auf die Quelle.

Von Zusammenarbeit könnten alle profitieren

Während bei der klassischen Suchmaschine Medien profitieren, weil sie gefunden und geklickt werden, muss der Chatbot-Nutzer die Medienseite gar nicht mehr besuchen. Damit entgehen den Medien potenzielle Kunden und Werbeeinnahmen. Nachhaltig ist das nicht, denn die journalistische Arbeit, die Recherche vor Ort, das Kontrollieren von Fakten, das Gegenlesen, all das muss irgendwer bezahlen.

Technisch haben Medienunternehmen inzwischen Möglichkeiten, die Algorithmen von Google, Open AI und Co. zu blockieren, welche Zeitungstexte automatisiert speichern und zu neuen Trainingsdaten verarbeiten. Allerdings befürchten viele Medien, dass Google und Microsoft sie dafür bestrafen und auch beim Such-Algorithmus schlechter einstufen könnten.

Auch für die Öffentlichkeit wäre eine einfache Blockade nicht optimal. Falls sich KI-Chatbots tatsächlich als Werkzeug zur Suche von Informationen etablieren sollten, wäre wünschenswert, dass diese bestmöglich trainiert werden, mit aktuellem, glaubwürdigem Material.

Darauf sind auch KI-Hersteller angewiesen. Das zeigen die Einigungen mit Springer und AP. Der Medienökonom Philipp Bachmann von der Hochschule Luzern vermutet, dass Open AI klar ist, dass es gegen Recht verstösst: «Das ist das typische Silicon-Valley-Vorgehen, bei dem man Klagen, Bussen und Schadenersatz in Kauf nimmt. Das Geschäft lohnt sich trotzdem.»

Damit es sich auch für die Medien lohnt, braucht es akzeptable Bedingungen. Durch ihre schiere Grösse und Relevanz in den Datensätzen hat die «New York Times» gute Chancen, sich solche zu erstreiten.

Exit mobile version