Samstag, Februar 1

Von wegen «zwei, drei Jahre voraus»: Amerikanische KI-Unternehmen wähnten sich konkurrenzlos. Sie setzten auf Grösse statt Grips. Nun zeigt Deepseek: Es geht auch anders.

In der Tech-Welt reden im Moment alle von Deepseek, einer bis dato unbekannten Firma aus China, die die Dominanz von amerikanischen KI-Firmen infrage stellt. Wie aus dem Nichts hat Deepseek ein KI-Modell namens R1 entwickelt, das es mit dem Spitzenmodell vom Chat-GPT-Hersteller Open AI aufnehmen kann. Und dabei fast nichts kostet, wenn man es in der chinesischen Cloud nutzt.

Optimieren Sie Ihre Browsereinstellungen

NZZ.ch benötigt JavaScript für wichtige Funktionen. Ihr Browser oder Adblocker verhindert dies momentan.

Bitte passen Sie die Einstellungen an.

Die neue chinesische KI ist zudem quelloffen (Open Source). Das heisst, jeder kann das Modell gratis herunterladen, beliebig anpassen und auf eigenen Computern laufen lassen – etwas, was allerdings technisches Wissen und genügende Computerressourcen voraussetzt.

Davon gibt es aber im Silicon Valley, dem Mekka der Tech-Welt, genügend. Beim Facebook-Konzern Meta zum Beispiel sitzen die Ingenieure seit Tagen in «war rooms» und versuchen, das Erfolgsrezept der chinesischen KI zu entziffern und selbst zu kopieren. Die Rollenverteilung zwischen China und den USA sah schon einmal anders aus.

Aber völlig aus dem Nichts ist Deepseek natürlich nicht hervorgegangen. Die Firma, die vor einem Jahr in Online-Foren noch als «akademisches Forschungskollektiv» verniedlicht wurde, hat lange unbemerkt an der Entthronung von Open AI gearbeitet.

Der Underdog

Anfang 2024 ist Open AI im KI-Rennen die unangefochtene Nummer eins. Mit seinem neuesten Modell, GPT-4, kann man nicht nur chatten, sondern auch Sprachen lernen und programmieren. Die KI versteht neben Text auch Bilder. Sie kann sogar Witze erklären.

Deepseek ist zu diesem Zeitpunkt selbst in der chinesischen KI-Szene noch ein Underdog, überschattet von grösseren, besser finanzierten Firmen wie Alibaba, Baidu und 01.AI, die dem kommunistischen Staat auch näher stehen.

«Deepseek kannte man von Konferenzen, sie präsentierten interessante Forschungsarbeiten, aber ihre Modelle waren sehr klein», sagt der KI-Forscher Jonas Geiping vom Max-Planck-Institut für intelligente Systeme. Kaum jemand habe damals gedacht, Deepseek könnte zur Bedrohung für Open AI werden.

Anstatt geschliffene Produkte für den Massenmarkt zu entwickeln, baut Deepseek zuerst schlanke, spezialisierte Modelle, die sich sehr gut in Nischen einsetzen lassen. Nebenbei erfinden die Chinesen immer wieder nützliche Tricks, um ihren noch kleinen Sprachmodellen das «logische Denken» effizient beizubringen.

Im Januar 2024 bringt Deepseek eines dieser kleinen, stark spezialisierten Modelle heraus. Sie nennen es Coder, und es ist kein gewöhnlicher Chatbot, sondern eher das digitale Pendant eines schüchternen Computer-Nerds: nicht besonders redegewandt, dafür aber stark im Programmieren. Coder wird nur zu 13 Prozent durch das «Lesen» von Texten in natürlichen Sprachen trainiert. Volle 87 Prozent seiner «Ausbildung» bestehen darin, Computerprogramme zu lesen.

In Programmiertests schlägt Coder alle KI-Modelle, die zu diesem Zeitpunkt quelloffen, also frei verfügbar sind – darunter auch die zum Teil grösseren Modelle von Meta. Coder kann auch fast so gut programmieren wie die Spitzenprodukte von Open AI. Es beherrscht 87 Programmiersprachen und spricht nebenbei auch ein bisschen Englisch und Chinesisch.

Von Coder zu Math

Als Nächstes bringt Deepseek im Februar 2024 eine auf Mathematik getrimmte KI namens Math heraus. Als Ausgangspunkt dafür dient nicht etwa eine generalistische Sprach-KI, sondern das bereits spezialisierte Coder-Modell. Es stellt sich heraus, dass dies Math hilft, schneller zu lernen.

Beim Trainieren von Math geht Deepseek ähnlich vor wie bei Coder. Es beschränkt die Lern-Diät seines KI-Modells streng auf Webseiten mit gesichertem mathematischem Wissen. Und das zahlt sich aus.

Wieder einmal schlägt Deepseek mit Math die Open-Source-Konkurrenten. Und wieder einmal rücken die Chinesen mit ihrer kleinen KI den Spitzenmodellen – GPT-4 von Open AI und Gemini Ultra von Google – gefährlich nah.

Als Deepseek Coder und Math präsentiert, ist die Welt mit anderen KI-News beschäftigt. Anthropic, ein von ehemaligen Open-AI-Mitarbeitenden gegründetes Startup, hat mit einem neuen Modell namens Claude 3 die Überlegenheit von GPT-4 beendet. Open AI zeigt seinerseits eine Vorschau seines KI-basierten Videogenerators Sora, der aus einer Textanweisung einminütige, fotorealistische Videos generiert. Im Hintergrund laufen bereits Gespräche mit Hollywood. Und der Nvidia-CEO Jensen Huang meldet, seine Firma werde KI für humanoide Roboter entwickeln.

Vor dem Hintergrund solcher visionären Pläne lesen wohl nur wenige das Forschungspapier zu Math, das Deepseek im April 2024 veröffentlicht. Darin beschreibt die Firma einen Trick, der entscheidend sein wird, um das zurzeit bewunderte R1-Modell effizient zu trainieren.

Der autodidaktische Mathematiker

Deepseek trainiert Math zum grossen Teil mithilfe des sogenannten bestärkenden Lernens – einer Technik, mit der Google Deep Mind 2017 die KI-Systeme Alpha Zero und Alpha Go entwickelt hat, die Spiele wie Schach und Go besser als die besten Menschen spielen.

Beim bestärkenden Lernen lernt eine KI ganz ohne menschliches Zutun: Sie bringt sich zum Beispiel das Schachspielen bei, indem sie Abertausende Male gegen sich selbst oder eine andere KI spielt. Ein «Lehrer», der die Spielregeln oder Strategien erklärt, ist nicht nötig. Analog lernt Math selbständig, indem es viele Mathematikaufgaben löst, ganz ohne Hilfe eines Lehrers. Math gleicht dem Studenten, der die Vorlesungen schwänzt und lieber in der Bibliothek büffelt.

Dass es Deepseek gelingt, Math durch bestärkendes Lernen so erfolgreich zu trainieren, überrascht viele in der Fachwelt. «Im Nachhinein sieht es logisch aus, aber damals hätte das niemand so getan», sagt Jonas Geiping.

Experten sind sich damals nämlich einig, dass bestärkendes Lernen für das Training von Sprach-KI zu ineffizient sei. Der Grund dafür: Die Technik basiert eben auf Versuch und Irrtum. «Es sind sehr viele Versuche nötig, bis die KI auf die richtige Antwort kommt», sagt Florian Tramèr, Professor für Informatik an der ETH Zürich. Bei Sprachmodellen, so die Lehrmeinung, ufert der Rechenaufwand für bestärkendes Lernen aus.

Wer braucht schon diesen Kritiker?

Deepseek widerlegt diese These, indem es laut Tramèr «einen raffinierten Trick verwendet, der sowohl Rechenaufwand als auch Speicherplatz einspart».

In der Standardmethode des bestärkenden Lernens braucht es neben der KI, die man trainieren will, eine zusätzliche KI, die Fachleute «den Kritiker» nennen. Diese Kritiker-KI ist dazu da, die Handlungen des lernenden Modells zu bewerten. Beim Mathe-Lernen löst die lernende KI selbständig eine Aufgabe und lässt die Lösung von der Kritiker-KI «benoten».

Mit solchem Feedback bestärkt die Kritiker-KI die lernende KI, wenn diese richtig handelt. Das ermöglicht das Lernen. Die Kritiker-KI muss aber auch selbst trainiert werden. Und das bedeutet wieder zusätzlichen Rechenaufwand.

Deepseek beschliesst deshalb, beim Trainieren von Math auf die Kritiker-KI zu verzichten. Anstatt jede einzelne Lösung von Math durch einen Kritiker bewerten zu lassen, lässt Deepseek seine Mathe-KI mehrere Lösungen zu jeder Aufgabe generieren. Dann genügt es, diese Lösungen untereinander zu vergleichen und die beste auszuwählen – eine Bewertungsmethode, die laut Tramèr weniger Rechenaufwand erfordert. Der «Student» Math kann nun also nicht nur die Vorlesungen, sondern auch die Prüfungen schwänzen.

Der unscheinbare Riese

Im Frühling 2024 kann Deepseek also bereits einer relativ kleinen Sprach-KI das logische Denken effizient beibringen, um in Programmieren und Mathematik zu glänzen. Das «akademische Forschungskollektiv» aus China bleibt aber ausserhalb von Fachkreisen unbekannt.

Im Westen jedenfalls hat niemand aufgehorcht. Anfang Mai sagt der Ex-Google-Chef und KI-Investor Eric Schmidt in einem Interview mit Bloomberg, Amerika sei China bei KI vermutlich zwei bis drei Jahre voraus.

Im Juni bringt Deepseek die zweite Version von Coder heraus, die nun in Tests auch das beste Modell von Open AI, GPT-4 Turbo, schlägt. Coder V2 erregt bereits Aufmerksamkeit. Das Online-Magazin «Techzine» titelt: «Chinesisches Open-Source-Modell fordert Amerika heraus».

Ende Juli berichtet die «New York Times» unter der Überschrift «China schliesst die KI-Lücke zu den USA» über die jüngsten KI-Apps chinesischer Firmen. Deepseek bleibt unerwähnt.

Gleichzeitig steigt Elon Musk mit seinem KI-Startup XAI ins Rennen. Ende Juli baut die Firma den weltgrössten KI-Supercomputer namens Colossus mit 100 000 Nvidia-Chips. Im Oktober enthüllt Musk seine Pläne, den Colossus auf 200 000 Chips auszubauen. Und im Dezember lautet das Ziel eine Million Nvidia-Chips.

Die Amerikaner sind immer noch überzeugt, dass immer grössere Rechenzentren den Schlüssel für weitere KI-Fortschritte bilden. Das trübt möglicherweise ihren Blick für die heranschleichende Bedrohung aus Fernost. Die Chinesen, durch die US-Exportbeschränkungen limitiert, haben gelernt, aus der Not eine Tugend zu machen. Sie werden immer erfinderischer.

Das Selbstverständnis der USA als führende KI-Nation wird regelmässig von Experten bekräftigt. Noch Ende November befindet eine Studie der Stanford University, Amerika führe im KI-Rennen noch mit Abstand vor China. Einen Tag vor der Veröffentlichung der Stanford-Studie präsentiert Deepseek eine Frühversion des Durchbruchsmodells R1. Diese übertrifft in Mathematik- und Logikaufgaben die Frühversion von o1, die Open AI zwei Monate zuvor für denselben Zweck gebaut hat.

Aber der grösste Sprung gelingt Deepseek Ende Dezember mit der Veröffentlichung eines riesigen Sprachmodells namens Deepseek V3. Dies ist das Modell, das später als Basis dient, um R1 zu trainieren und Open AI endgültig zu entzaubern.

Spezialisten sind effizienter

Bei V3 beweist Deepseek wieder bemerkenswerte Ingenieurkunst. Anstatt das Modell wie üblich quasi als ein grosses «Generalisten-Gehirn» zu trainieren, bildet Deepseek V3 als eine Ansammlung vieler «Spezialisten-Gehirne». Der dadurch erzielte Effizienzgewinn ist beeindruckend.

Man kann sich das so vorstellen, dass das Modell mit einer Art Router bestückt ist, der jede Nutzerfrage an die dafür zuständigen «Experten» weiterleitet. Dadurch muss beim Antworten nicht das gesamte Modell arbeiten. Es reicht, wenn sich die ausgewählten Experten um die Anfrage kümmern. Diesen Ansatz, in der Fachwelt als Mixture of Experts bekannt, haben schon vorher andere Firmen probiert. Aber niemand hat ihn so erfolgreich umgesetzt wie jetzt Deepseek.

Mit seiner eigenen Variante des bestärkenden Lernens und dem Mixture-of-Experts-Modell V3 kreiert Deepseek in weniger als einem Jahr die wichtigsten Bausteine, um etwas zu schaffen, das die Tech-Welt in Staunen versetzen wird. Das neueste Deepseek-Modell, R1, ist die Frucht dieser Durchbrüche und vieler weiterer Optimierungen. Damit bereitet Deepseek heute den amerikanischen Tech-Firmen ein böses Erwachen. Sie haben auch zu lange geschlafen.

Exit mobile version