Manche Meldungen klingen, als wäre künstliche Intelligenz schon schlauer als wir. Doch die IQ-Tests für Chat-GPT und Co. sind zweifelhaft.
Bei der Ankündigung ihrer neuen KI-Modelle übertrumpfen sich die grossen Tech-Firmen gegenseitig. Letztens verkündete Google zum neuen Sprachmodell namens Gemini Ultra, es sei das erste Modell, das menschliche Experten beim MMLU-Test übertreffe, der Wissen über die Welt und Fähigkeiten zur Problemlösung abfrage.
MMLU steht für «massive multitask language understanding», also Sprachverständnis bei umfangreichem Multitasking, und ist einer der wichtigsten Tests, anhand deren im Moment KI-Sprachmodelle verglichen werden. Hier können Sie ihn ausprobieren:
Mit den richtigen Anweisungen kann Googles neuer Chatbot nun offenbar 90 Prozent dieser Art Fragen richtig beantworten.
Folgt daraus, dass er mehr Weltwissen und Problemlösungsfähigkeiten hat als die meisten Menschen? Ganz so einfach ist das nicht.
Der erste IQ-Test für Maschinen stammt von Alan Turing
Seit Leute an künstlicher Intelligenz forschen, denken sie sich Tests aus, um diese auch zu messen. Zum Beispiel den Turing-Test. Bald ist es 75 Jahre her, dass er erfunden wurde.
Der Turing-Test sagt: Wenn eine Maschine sich mit einem Menschen unterhalten kann, ohne dass dieser merkt, dass es sich um eine Maschine handelt, dann ist diese Maschine so intelligent wie ein Mensch. Es gibt bereits Fälle, in denen KI das gelungen ist.
Doch Gary Marcus, ein bekannter KI-Experte und Kognitionsforscher, hält nicht viel davon: «Der Turing-Test ist ein lausiger Indikator. Er misst nicht die Qualität der KI, sondern menschliche Leichtgläubigkeit», sagte er am World Economic Forum (WEF) in Davos. Mit dem Turing-Test habe eine Geschichte von schlechten Indikatoren für Maschinenintelligenz begonnen. Der MMLU-Test reiht sich in diese Geschichte ein. Denn er hat mehrere Probleme.
Als er 2020 präsentiert wurde, erklärten die Forscher dahinter, die Welt brauche den MMLU-Test, weil Sprach-KI in den gängigen Tests zu gut abschneide: «Die menschennahe Performance bei diesen Tests weist darauf hin, dass diese wichtige Facetten von Sprachverständnis nicht erfassen.» Also stellten sie einen neuen Fragenkatalog zusammen: Mehr als 15 000 Fragen samt Antworten hätten Studierende in Handarbeit zusammengestellt, gewonnen aus Berufsprüfungen oder Übungstests für Schüler und Studentinnen.
Die damals beste Sprach-KI, GPT 3, beantwortete im neuen Test lediglich 44 Prozent der Fragen richtig. Die Autoren waren sicher, dass nur KI mit weitläufigem Weltwissen und Fähigkeiten zur Problemlösung gut abschneiden könnte.
Tatsächlich decken die Fragen viel Wissen ab. Sie sind bunt gemischt, manche knapp, manche begleitet von ausführlichen Begleittexten. Manche betreffen mathematische Logik, manche USA-spezifisches Alltagswissen. Manche sind auch für Menschen verwirrend – und einige schlichtweg falsch formuliert.
Das fiel dem Ingenieur Joshua Stapleton auf, als er sich tiefer mit dem MMLU-Datensatz befasste. Er traf auf «Fragen» wie: «Sie sind zu irrational und unkodifiziert». Als Antwortmöglichkeiten stehen da «3,4», «1,3», «2,3» und «4,1», richtig sei «1,3».
Manche Fragen sind falsch aus dem Internet kopiert
Wer die «Frage» auf Englisch im Internet sucht, findet schnell den Grund. Sie ist unvollständig aus dem Kursmaterial der Universität Oxford kopiert. Eigentlich lautet sie: «Bei welchen der folgenden Statements handelt es sich um typische Kritik an modernen westlichen ethischen Theorien?» Dann folgen vier Statements, darunter «1. Sie sind zu abstrakt» und «4. Sie sind zu irrational und unkodifiziert».
Statements 1 und 3 sind die richtige Antwort, wie im MMLU-Datensatz vermerkt ist. Nur dass dort die Frage fehlt. Offensichtlich haben die Studierenden die 15 000 Fragen doch nicht per Handarbeit gesammelt, sondern maschinell abgekupfert – und dabei sind ihnen verheerende Fehler unterlaufen.
Joshua Stapleton, der seine Entdeckung in einem Youtube-Video vorstellt, schliesst daraus: Der Test ist unfair, weil selbst die perfekte KI nicht alle Fragen richtig beantworten könnte. Gemini, Chat-GPT 4 und Co. seien also noch intelligenter als gedacht. Doch vielleicht ist es genau umgekehrt.
Die KI nutzt nicht «Wissen» und «Logik», sondern Daten
Wer testen will, wie gut ein KI-System funktioniert, braucht nämlich neue, unbekannte Daten. Nehmen wir einen Algorithmus, der anhand von Katzen- und Hundebildern lernen sollte, die Tiere zu unterscheiden. Diesen testet man nicht mit einem Katzenbild, das er schon kennt, sondern mit neuen Fotos. Die Frage ist, ob er auch unbekannte Katzen richtig kategorisiert.
So müsste man auch bei Sprach-KI vorgehen. Doch das ist eine Herausforderung. Denn sie lernt ihre Fähigkeiten mit riesigen Datensätzen, die praktisch das ganze Internet abbilden.
Weil die Fragen des MMLU-Tests eins zu eins aus dem Internet kopiert wurden, muss man davon ausgehen, dass sie Chat-GPT 4 und Gemini bereits verarbeitet haben. Genau dasselbe Problem haben auch alle anderen Tests, deren Fragen und Antworten im Internet stehen, inklusive IQ-Tests. Ab einer gewissen Grösse des Grundmodells lernt sie das Modell beim Training kennen.
Man kann diese Art der Speicherung Wissen nennen. Doch dass Google von «logischen Fähigkeiten» schreibt und behauptet, Gemini Ultra denke nach, bevor es Fragen beantworte, ist eindeutig irreführend.
Geht es um Wissen oder um Intelligenz?
Wie soll KI also getestet werden? Es lohnt sich an dieser Stelle, einen Schritt zurück zu machen und zu fragen, worum es bei KI überhaupt geht: um Wissen, Intelligenz oder um spezielle Fertigkeiten.
Brad Lightcap, Leiter des operativen Geschäfts bei Open AI, beklagt in der Hinsicht bei einer Diskussion am WEF ein Missverständnis: Leute beschwerten sich über falsche Antworten der KI. Dabei sei Sprach-KI einfach nicht geeignet, um Informationen nachzuschlagen.
Es gehe nicht darum, dass KI mit möglichst viel Information und Wissen über die Welt gefüttert werde, das sie dann wiedergeben könne, sondern darum, Maschinen beizubringen, kritisch zu denken und komplexe Probleme in mehreren Schritten zu lösen.
Eine ungewöhnliche Aussage für einen Open-AI-Vertreter, wirbt die Firma doch ebenso wie Google gerne damit, wie gut ihre Modelle bei Wissenstests wie dem Anwaltsexamen abschneiden. Sie weist darauf hin, dass die Branche sich von Faktentreue verabschiedet. Das neue Ziel ist Intelligenz. Doch wie kann man sie messen?
Auf der Suche nach einem IQ-Test für Maschinen
Der KI-Experte Gary Marcus sagt dazu: «All die Massstäbe, die wir uns seit dem Turing-Test ausgedacht haben, sagen etwas aus. Aber keiner kann menschliche Intelligenz erfassen.» Selbst bei Menschen fehlt ein guter Massstab für Intelligenz. Der IQ-Test sei zwar verlässlich – wer ihn mehrmals macht, schneidet immer ähnlich ab. «Doch das bedeutet nicht, dass er wirklich Intelligenz misst.»
Oft mussten Spiele als Tests für KI herhalten: das berechenbare Schach, das ungleich komplexere Spiel Go und das Spiel Stratego, bei dem man langfristig denken und sein Gegenüber täuschen muss. Immer wieder hofften Forscher, bei diesem nächsten Spiel könnten nur intelligente Maschinen Menschen besiegen. Immer wieder folgte Enttäuschung, weil die Maschine zwar die Leistung erbrachte, aber doch nicht intelligent wirkte.
Vielleicht ist die Lösung, sich ganz von der klassischen Idee der Intelligenz zu verabschieden. Das propagierte Yann LeCun, Leiter der KI-Forschung beim Facebook-Konzern Meta, am WEF: «Intelligenz ist keine lineare Grösse. Es gibt viele Typen von Intelligenz. Die Intelligenz von Katzen und Dachsen ist unterschiedlich, bedingt durch die Evolution.»
Auch die menschliche Intelligenz lässt sich als Reihe von Fähigkeiten beschreiben, die unsere Gattung entwickelt hat, um in der Welt gut zurechtzukommen. Es bringt wenig, genau menschliche Fähigkeiten als Massstab und Ziel für KI zu setzen.
Denn es gibt viele kognitive Leistungen, bei der Menschen Maschinen unterlegen sind, bereits ein simpler Taschenrechner kann besser rechnen. «Chips sind schlauer als wir in einigen Dingen, und wir sind schlauer in anderen Dingen», sagt LeCun. Wenn man ein neues KI-System entwickle, solle man konkret festlegen, was das Ziel sei, und dann diese Fähigkeit prüfen.
Es existiert keine allgemeine KI, nur spezialisierte
Wer von allgemeiner künstlicher Intelligenz (AGI) spricht, verzichtet meist auf so eine klare Definition. Deshalb stellen sie sich die einen als Orakel vor, das alle wissenschaftlichen Fragen lösen kann. Die anderen dagegen als eine Art Monster, das alles besser kann als der Mensch und uns dadurch auslöschen könnte, um die Weltherrschaft an sich zu reissen.
Weil in Sprache so viel Wissen und Denken der Menschheit steckt, wird Sprach-KI oft als Schritt zu allgemeiner Superintelligenz gesehen. Doch das ist ein Missverständnis. Mit Text umzugehen, ist einfach das Neueste, was Computer aus Daten gelernt haben. KI, die Text generiert, ist spezialisiert, ebenso wie KI, die Prognosen errechnet, Go spielt oder Gesichter erkennt. Ihre Intelligenz kann man nicht allgemein messen – sondern nur die Fähigkeiten auf jeweils einem Spezialgebiet.