Die Chat-GPT-Variante o1 sei so schlau wie ein promovierter Physiker, sagt Open AI. Doch bei genauem Hinsehen zeigt sich: Die Technologie erreicht ihre Grenzen.
Stellen Sie sich vor, Sie vergeben eine Aufgabe an zwei Assistenten. Der eine soll sie ohne Zettel und Papier auf der Stelle lösen. Der andere soll zuerst eine Liste mit verschiedenen Vorgehensweisen und Zwischenschritten anlegen, mit zwei Kollegen Vor- und Nachteile erörtern und dann eine Lösung präsentieren. Wer wird wohl die besseren Resultate parat haben?
Und wäre es fair, den Assistenten, der mehr Ressourcen und Zeit zur Verfügung hat, als klüger zu bezeichnen, wenn er die Aufgaben besser löst?
Open AI, eines der führenden Unternehmen im Bereich künstliche Intelligenz (KI), tut genau das: Es verkauft sein neues, mit Spannung erwartetes KI-Modell o1, das zahlende Kunden über Chat-GPT nutzen können, als «Sprung nach vorne» in der Denkfähigkeit von KI. Doch der Fortschritt ist klein, und er hat einen hohen Preis.
Open AI vergleicht sein Modell mit promovierten Experten
Die Testresultate des «o1» oder «Strawberry» genannten KI-Modells sind auf den ersten Blick beeindruckend. In einem Blogbeitrag listet Open AI eine Reihe von Tests mit Fragen zu Mathematik oder Recht auf, in denen das Modell besser abschneidet als Vorgängermodelle und zum Teil auch besser als promovierte menschliche Experten.
Open AI schreibt in seinem Blogbeitrag, dass diese Resultate nicht bedeuteten, dass die KI o1 «in jeder Hinsicht fähiger» sei als ein Experte mit Doktortitel. Gemeint ist: In vieler Hinsicht ist sie es.
Es lohnt ein genauerer Blick auf die Tests, mit denen Open AI die Intelligenz der KI «beweist». Oft sind Fragen und Antworten im Internet verfügbar und dem KI-Modell dadurch bereits bekannt. Manche Fragen sind verwirrend oder falsch. In der Branche streitet man darüber, ob die Tests geeignet sind, um KI zu vergleichen.
Klar ist, sie beweisen keine Denkfähigkeiten. Denn diese braucht zwar ein Mensch, um die Fragen zu beantworten. Eine Maschine simuliert diese Prozesse nur.
Das Modell o1 kann diese Denkfähigkeit besser simulieren als seine Vorgänger. Jedoch macht auch dieses immer wieder Fehler, vor allem bei neuartigen Fragen. In einem Test, der dazu gemacht ist, echtes abstraktes Denken bei KI zu messen, schneidet es ähnlich schlecht ab wie seine Vorgänger.
Die Variante o1 ist ein Fortschritt, aber keine Revolution. Und es lohnt ein Blick darauf, zu welchem Preis dieser kommt.
Hinter dem «Nachdenken» steckt ein teures Selbstgespräch
KI kann nicht denken, sondern nur vorhersagen, wie ein Text weitergeht.
Um Nachdenken zu simulieren, hat Open AI dem neuen Modell eine Art inneren Monolog einprogrammiert. Das Modell teilt Fragen zum Beispiel in Unterkategorien auf, die es nacheinander erörtert. Das alles passiert, indem das Modell einen langen Text erzeugt, der den Nutzern verborgen bleibt. Nur das Fazit am Ende wird als Antwort herausgegeben. Es ist wenig überraschend, dass diese Antwort besser ist als jene des Modells ohne das Selbstgespräch.
Dabei darf man nicht vergessen, dass für jedes vorhergesagte Wort in den Datenzentren von Open AI Rechenleistung nötig ist. Der lange verborgene Monolog des neuen Modells braucht grosse Mengen an Strom.
Diese Mehrkosten gibt Open AI über zwei Schienen an die Nutzer weiter: Firmenkunden bezahlen für jedes erzeugte Wort von o1 einen viermal so hohen Preis wie beim Modell GPT-4. Dazu kommt, dass nicht nur die Wörter in der Antwort in Rechnung gestellt werden, sondern auch der ganze verborgene Text des Selbstgesprächs. Das treibt die Kosten noch weiter in die Höhe.
Mit der Rede von «Nachdenken» und dem Vergleich mit promovierten Experten will Open AI eine mässige Innovation als Durchbruch verkaufen. Klar, denn gerade jetzt sucht die Firma neue Investoren und strebt eine Bewertung von 150 Milliarden Dollar an. Die wäre nur gerechtfertigt, wenn Open AI der Konkurrenz weit voraus wäre.
Doch wenn man genauer hinschaut, steht o1 sinnbildlich dafür, dass die exponentielle Innovation bei Sprach-KI vorbei ist. Kleine Fortschritte müssen immer teurer erkauft werden. Der Unterschied zwischen den Firmen schrumpft. Der Innovationszyklus hat den Punkt der Reife erreicht.