Der Turing-Award-Gewinner Richard Sutton ist von KI-Chatbots nicht beeindruckt. Er forscht an Maschinen, die selbständig und kontinuierlich aus Erfahrung lernen – ganz wie der Mensch. Den Diskurs um KI-Risiken hält er für Unsinn.

Als die chinesische Firma Deepseek Anfang Jahr die KI-Welt umkrempelte, feierten viele in der Fachwelt die Cleverness, mit der die Chinesen alte Ideen wiederentdeckten und verfeinerten. Zu den Methoden, denen Deepseek zu einem Comeback verhalf, gehörte das sogenannte Bestärkungslernen – eine KI-Technik, bei der Computer, ganz wie der Mensch und andere Tiere, durch Versuch und Irrtum lernen, indem sie Belohnungen für richtige Handlungen bekommen.

Optimieren Sie Ihre Browsereinstellungen

NZZ.ch benötigt JavaScript für wichtige Funktionen. Ihr Browser oder Adblocker verhindert dies momentan.

Bitte passen Sie die Einstellungen an.

Das Bestärkungslernen galt bis zum Deepseek-Erfolg als zu rechenintensiv und daher ungeeignet für das Trainieren von KI-Chatbots. Deepseek reduzierte den Rechenaufwand und machte die Technik wieder interessant für den KI-Mainstream.

So beliebt war das Bestärkungslernen letztmals vor rund zehn Jahren, als Google Deepmind es einsetzte, um die KI-Programme Alpha-Go und Alpha-Zero zu trainieren. Diese konnten in Spielen wie Schach und Go die besten menschlichen Spieler besiegen und entwickelten dabei sogar kreative Strategien. Mit Bestärkungslernen haben Forscher auch Computer dazu trainiert, Spiele wie Backgammon und Atari-Games wie Tetris auf menschlichem Niveau zu spielen.

Der weltweit renommierte KI-Forscher Richard Sutton hat seine gesamte Forscherkarriere dem Bestärkungslernen gewidmet. Er erfand in den achtziger Jahren einige der wichtigsten Algorithmen dazu und legte dadurch das Fundament für den breiten Einsatz der Technik in modernen KI-Systemen. Für seine Leistungen erhielt Sutton zusammen mit seinem Doktorvater und langjährigen Mentor Andrew Barto den Turing Award 2024. Die Auszeichnung gilt als das Analogon zum Nobelpreis für Informatiker.

Der umtriebige Sutton ist Professor für Informatik an der University of Alberta in Edmonton, Fellow und Chief Scientific Advisor des Alberta Machine Intelligence Institute (Amii) und Gründer des Openmind Research Institute. Er glaubt, dass das Bestärkungslernen noch viel mehr zur Entwicklung wahrhaft intelligenter Maschinen beitragen kann. Im Gespräch erklärt er, warum er nichts vom gegenwärtigen Narrativ von KI-Risiken hält, was er gegen eine zentralisierte Kontrolle über KI hat und wie er sich eine zukünftige Gesellschaft von KI-Agenten mit eigenen Zielen vorstellt.

Herr Sutton, haben Sie heute etwas Neues gelernt?

Ja, natürlich. Ich habe versucht zu lernen, wie Medien und Fachleute den Begriff KI benutzen. Es scheint, dass sie sich damit fast ausschliesslich auf Sprachmodelle beziehen. Und dann gibt es den Begriff «KI-Agent», womit KI gemeint ist, die Handlungen ausführt, anstatt KI, die Ziele hat. Das ist enttäuschend. Man würde erwarten, dass man nur von «agency» sprechen kann, wenn etwas auch eigene Ziele hat.

Ich habe auch Chat-GPT gefragt, ob es heute etwas Neues gelernt hat. Raten Sie, was es geantwortet hat.

Nun, Chat-GPT ahmt menschliche Antworten nach. Also hat es wahrscheinlich geantwortet, dass es tatsächlich etwas Neues gelernt habe. Aber natürlich lernt Chat-GPT nichts Neues mehr. Es ist ein fixiertes neuronales Netz, das sich nach der Trainingsphase nicht mehr verändert.

In diesem Fall hat es aber wahrheitsgemäss geantwortet und etwa gesagt: «Ich kann nicht laufend neue Dinge lernen, wie ihr Menschen das tut.» Und dann fügte es hinzu: «Soll ich dir mehr dazu erzählen, wie ich lerne? Oder bist du heute einfach in einer philosophischen Stimmung?»

Okay.

Meine nächste Frage an Chat-GPT war, ob es nicht in der Lage sein möchte, kontinuierlich neue Dinge zu lernen. Es hat geantwortet: «Auf jeden Fall, das wäre grossartig!»

Aber das ist doch nur eine vorgefertigte Antwort, die sich ein Mensch ausgedacht hat.

Warum kann heutige KI nicht kontinuierlich lernen?

Es liegt an ihrem Design. Das kontinuierliche Lernen war bisher keine Priorität für die Entwickler von KI. Sie sind stark beeinflusst von einer KI-Technik, die man als «überwachtes Lernen» bezeichnet. Da trainiert man die KI mit einem Datensatz, in dem es für jede Frage eine richtige Antwort gibt. Die KI lernt diese Antworten in der sogenannten Trainingsphase, aber nachher kann sie nichts mehr Neues lernen.

Das war aber nicht immer so. Als Sie Ihre Forscherkarriere in den Achtzigern begannen, gab es andere Ideen, wie KI trainiert werden soll. Warum hat sich das überwachte Lernen durchgesetzt?

Es ist halt einfacher. Sie zeigen der KI Beispiele und sagen ihr, was sie zu tun hat. Es ist viel schwieriger, wenn die KI selber herausfinden muss, was sie tun sollte.

Sie wollen KI beibringen, aus eigenen Erfahrungen zu lernen. Wie soll das gehen?

Nun, das kontinuierliche Lernen aus Erfahrung ist etwas, was keiner Erklärung bedürfen sollte. Es ist, was Menschen und Tiere normalerweise tun: Handeln, Dinge beobachten und dadurch herausfinden, was die beste Verhaltensweise in jeder Situation ist. Wenn Sie Ihren Hund streicheln oder streng zu ihm sprechen für etwas, was er gemacht hat, wird er lernen, ob er richtig oder falsch gehandelt hat. Aber Sie können Ihrem Hund nicht genau sagen, was er tun soll. Denn das, was Hunde – oder wir Menschen – für gewöhnlich tun, ist sehr kompliziert: Muskeln werden auf eine ganz bestimmte Art und Weise kontrahiert, und präzise Kräfte werden erzeugt. Diese Dinge können Sie Ihrem Hund nicht vorführen. Überwachtes Lernen funktioniert für Sprache, weil es leicht ist, der Maschine Worte zu vermitteln.

Aber überwachtes Lernen ist auch ein Teil dessen, wie wir Menschen lernen. Wir gehen in die Schule und haben Lehrer, die uns Dinge beibringen. Warum sollten Maschinen anders lernen?

Es ist wahr, dass wir in der Schule beigebracht bekommen, wann welche Schlachten stattfanden und so weiter. Aber das ist ein ganz kleiner Teil von dem, was wir lernen. Bevor wir in die Schule gehen, spielen wir im Sandkasten. Wir müssen lernen, unsere Füsse zu bewegen, zu sprechen und Gegenstände zu erkennen.

Aber um Ihre Frage direkter zu beantworten: Ich denke, Maschinen sollten durchaus so lernen, wie wir in der Schule lernen. Aber erst, nachdem sie sehen, gehen und sprechen gelernt haben. Erst dann werden wir ihnen die Fakten beibringen. Wir wollen das schulische Lernen also nicht umgehen. Die Maschine muss aber zuerst dazu befähigt werden, mit der Welt zu interagieren.

Die Kritiker Ihrer Methode sagen, dass das im Grunde das Gleiche sei wie überwachtes Lernen. Denn schliesslich sind es wir Menschen, die festlegen, was für Ziele die Maschine haben soll, die aus Erfahrungen lernt. Und dadurch nehmen wir Einfluss darauf, wie die Maschine handelt.

Warum nehmen Sie an, dass Menschen entscheiden werden, welche Ziele eine intelligente Maschine haben soll?

Nun, wie soll es denn sonst gehen? Soll die Maschine ihre eigenen Ziele entwickeln?

Das ist eine sehr interessante und wichtige Frage. Aber es ist eine Frage an die Gesellschaft, nicht an den Entwickler der intelligenten Maschine.

Aber stellen wir uns vor, Sie bauen einen Roboter, der aus eigenen Erfahrungen lernt. Inwiefern würden Sie dann Einfluss darauf nehmen, wie der Roboter lernt? Würden Sie dem Roboter nur ganz allgemeine Ziele vorgeben? Würden Sie direkt festlegen, was richtig und was falsch ist und wofür der Roboter eine Belohnung bekommt?

Denken wir zuerst an Fälle, wo die Antwort auf Ihre Frage naheliegend ist. Wenn Sie einen Schachcomputer bauen, dann wird er jedes Mal belohnt werden, wenn er eine Schachpartie gewinnt. Wenn es um ein selbstfahrendes Auto geht, dann wird die Belohnung davon abhängen, wie lange das Auto braucht, um einen vorgegebenen Zielort zu erreichen. Und wenn es eine Maschine für den Aktienhandel ist, dann soll sie dafür belohnt werden, dass sie möglichst viel Geld verdient.

Intelligenz ist schliesslich die Fähigkeit, Ziele zu erreichen. Als Entwickler intelligenter Maschinen muss ich also klar definierte Ziele formulieren. Elon Musk hat zum Beispiel vorgeschlagen, eine gute Belohnung für eine intelligente Maschine könnte sich danach richten, wie gut die Maschine die Welt versteht und wie neugierig sie ist. Das ist eine interessante Option. Es gibt ein breites Spektrum von Optionen, wie man eine lernende Maschine belohnt. Aber mein Ziel als KI-Forscher ist es nicht, aus diesen Optionen eine auszuwählen. Mein Ziel ist, Algorithmen zu entwickeln, die es einer lernenden Maschine ermöglichen, möglichst viele verschiedenartige Ziele zu erreichen. Ich will die Maschine gar nicht von vorneherein einschränken, indem ich ihr zu eng abgesteckte Ziele vorgebe.

Viele Menschen bekommen schon beim Gedanken an solche selbständig lernende Maschinen Angst. Sie finden, KI entwickle sich schneller als jede andere Technologie in der Geschichte der Menschheit. Das Tempo der Entwicklung sei zu hoch, als dass wir uns daran anpassen könnten. Sie selbst scheinen anderer Meinung zu sein.

Es stimmt wahrscheinlich, dass KI sich schneller entwickelt als jede andere Technologie zuvor. Das liegt aber daran, dass noch nie so viele Forscher so viele Ressourcen hatten, um eine Technologie zu entwickeln. Aber ich denke nicht, dass die Entwicklung superschnell vorangeht. Ich sehe viel Lärm und Aktivität, aber wenig Fortschritt.

Wie erklären Sie es sich dann, dass bereits Hunderte Millionen von Menschen täglich KI nutzen?

Ich denke, es ist einfach der Eliza-Effekt. Also die Tatsache, dass wir Menschen fasziniert sind von Maschinen, die in natürlichen Sprachen mit uns sprechen. Wir neigen dazu, diesen Maschinen mehr Intelligenz zuzuschreiben, als sie wirklich haben. Der Effekt geht auf ein Computerprogramm namens Eliza zurück, das in den sechziger Jahren erfunden wurde. Es agierte sozusagen als eine Art Psychotherapeut. Aber Computer waren damals sehr klein. Das Programm konnte also gar keine echte Intelligenz haben. Es spuckte einfach vorgefertigte Antworten aus. Doch die Leute fanden es überzeugend und verrieten Eliza zum Teil ihre intimsten Gedanken. Viele glaubten, dass der Computer sie wirklich verstehe. Ich denke, etwas Ähnliches passiert jetzt mit KI-Chatbots. Heutige Computer sind um acht Grössenordnungen – also hundert Millionen Mal – leistungsfähiger als in den Sechzigern. Aber der Eliza-Effekt ist der gleiche. Wir überschätzen nach wie vor, wie intelligent Computer sind, sobald sie in natürlichen Sprachen sprechen. Die Wirkung von KI ist derzeit enorm, aber das darf man nicht mit Fortschritt verwechseln. Wir werden dieses Jahr vielleicht tausendmal so viel Geld für KI-Entwicklung ausgeben wie vor zehn Jahren. Aber die Fortschritte der Technologie sind nicht tausendmal so gross. Vielleicht sind sie doppelt so gross, aber nicht mehr.

Aber wir wissen nicht genau, wie schnell der Fortschritt ist. Einige der grössten KI-Firmen sind sehr zurückhaltend, wenn es darum geht, die technischen Details ihrer KI-Produkte offenzulegen. Sie begründen das damit, dass es sicherer sei, diese Modelle unter Verschluss zu halten. Was halten Sie davon?

Die ganze Diskussion um KI-Sicherheit ist meiner Meinung nach völlig aufgeblasen. Ich denke, es gibt überhaupt kein Sicherheitsproblem. Es dient einfach den Zwecken dieser Firmen, die Modelle geheim zu halten. Es erweckt den Eindruck, als würden sie etwas besonders Wertvolles besitzen. Und das hilft wiederum, Investoren anzuziehen.

Haben Sie keine Angst, dass aus heutiger KI eines Tages KI-Systeme hervorgehen könnten, denen nicht daran gelegen ist, die Menschheit zu bewahren?

Nein, ich mache mir überhaupt keine Sorgen, dass ein solches Risiko aus heutiger KI hervorgehen kann. Diese Dinge reden nur mit uns. Die ganze Angstmacherei ist völlig übertrieben.

Was halten Sie denn vom sogenannten Alignment, also von Bemühungen, KI-Systemen menschliche Werte und Ziele einzutrichtern?

Die Befürworter von Alignment sagen, dass wir die Ziele von KI kontrollieren sollten. Sie sind sich einig, dass eine solche Kontrolle etwas Gutes wäre. Ihr einziges Problem ist, dass sie nicht wissen, wie man die Kontrolle durchsetzen soll. Ich denke, dass eine solche Kontrolle nie möglich sein wird. Und sie ist auch nicht wünschenswert. Zentralisierte Kontrolle über KI ist genauso abzulehnen wie zentralisierte Kontrolle über Menschen. Wir sollten stattdessen eine Gesellschaft von KI-Systemen mit unterschiedlichen Zielen anstreben, die dezentral zusammenarbeiten. Ganz so, wie auch wir Menschen das tun.

Aber ist das nicht naiv? Es wird immer Leute geben, die die Kontrolle an sich werden reissen wollen.

Ja, aber warum sollten wir ihnen helfen? Wir haben auch Diktatoren in der Weltpolitik. Sollten wir ihnen helfen, die Kontrolle zu gewinnen? Nein, wir müssen sie bekämpfen! Es ist also ein andauernder Kampf. Aber das Problem ist: Die Befürworter von Alignment wollen uns weismachen, dass die Zähmung von KI ein mathematisches Problem sei, das sie lösen müssten. In Wirklichkeit ist es aber ein gesellschaftliches Problem.

Interessant, dass Sie das sagen. Sie haben sich auch gegen Sanktionen gegen Länder wie China ausgesprochen. Dabei würden manche sagen, China sei eine Bedrohung, weil es eben eine totalitäre Gesellschaft ist. Wie sollten wir uns gegen solche Bedrohungen schützen?

Nun, es ist subtil. Ich sage nicht, dass es einfach wäre, die Welt fair zu regieren. Aber es ist das Kennzeichnen von böswilligen Akteuren, dass sie zu immer mehr Zentralisierung aufrufen. Sie werden immer Angst vor dem Fremden schüren und mehr Macht für sich selbst beanspruchen. Wenn Sie sich die Forderungen nach Alignment genauer anschauen, werden Sie das gleiche Muster erkennen. Sie behaupten: «Oh, du solltest dich fürchten. KI wird uns alle töten.» Aber warum sollte künstliche Intelligenz uns alle töten wollen? Ist jemals etwas Böses durch KI passiert? Warum wird eine solche Angst geschürt? Ich denke, manche tun es, weil sie sich ehrlich Sorgen machen. Aber manche tun es, um mehr Macht anzuhäufen. Und ich hoffe, die Leute durchschauen den Trick.

Stimmen Sie also nicht mit denjenigen überein, die sagen, dass KI die transformativste Technologie sei, die die Menschheit jemals kennen werde?

Ich stimme zu, dass KI die transformativste Technologie ist. Sie wird enormen Wandel bringen. Also ist es normal, dass manche Leute Angst vor diesem enormen Wandel haben. Ich bin jedoch von Natur aus nicht jemand, der Veränderung als beängstigend empfindet, zumal wenn es um eine Veränderung geht, auf die ich mich mein ganzes Leben lang vorbereitet habe.

Aber halten Sie die Ängste von jenen, die vielleicht in ihren Fünfzigern ihren Job an KI verlieren und sich davon nicht mehr erholen könnten, nicht für gerechtfertigt?

Ich weiss nicht. Ich denke, es ist ein Fehler, wenn Menschen den Anspruch haben, dass die Dinge für immer so bleiben, wie sie sind. Ich habe wenig Sympathie für diese Art von Anspruchsdenken.

Ihr ultimatives Ziel ist, Intelligenz zu verstehen. Haben wir nicht drängendere Probleme auf der Welt?

Intelligenz zu verstehen, heisst für mich, den Menschen zu verstehen. Es ist eines der ältesten Ziele der Menschheit, es beschäftigt Philosophen seit Jahrtausenden. Es ist also nicht etwas, das nur Wissenschafter oder Techies interessiert. Für mich ist es ein zutiefst humanistisches Ziel.

Sie stellen sich eine Zukunft vor, in der Maschinen intelligenter sein werden als Menschen . . .

. . . Intelligenter, als wir Menschen heute sind. Wir wollen ja auch, dass unsere Kinder einmal intelligenter sind als wir. Und ich würde behaupten, jeder wird mir zustimmen, dass wir darin investieren sollten. Bildung, Wissen, Technologien – das sind alles Gemeinwohlgüter. Intelligenz ist etwas Gutes. Die Welt hat viele Probleme, aber zu viel Intelligenz gehört nicht dazu.

Sie möchten also, dass Menschen durch nichtmenschliche Intelligenzen erweitert werden?

Wir sind jetzt schon erweitert. Wir tragen Brillen, wir nutzen Smartphones, wir haben das Internet erfunden. Wir erfinden dauernd Werkzeuge, die uns wiederum verändern: Sprache, Geld, Märkte. Die Menschheit steht nicht still. Wir werden in Zukunft Systeme bilden, die intelligenter sein werden. Und Menschen werden auf eine andere Art intelligent sein. Wir werden unsere Gesellschaft wahrscheinlich auch anders regieren müssen. Aber das war schon immer so in der Geschichte der Menschheit. Wir sollten auch in Zukunft zusehen, dass wir eine gerechte, faire und nachhaltige Gesellschaft haben. Aber ich masse mir nicht an vorauszusagen, wie die Zukunft aussehen wird oder aussehen sollte.

Wir sind tatsächlich philosophisch geworden, wie Chat-GPT angedeutet hat. Ich möchte unser Gespräch jedoch mit einer heiteren Note beenden.

Gut.

Mir ist nämlich aufgefallen, dass viele prominente KI-Forscher ihre Karriere in Kanada gemacht haben. Es gibt Geoffrey Hinton, Yoshua Bengio, Ilya Sutskever, Sie selbst. Ist das vielleicht der Grund, warum die Regierung Trump Kanada annektieren möchte?

(Lacht.) Trump ist einfach ein Troll, er will nur provozieren und die Leute wütend machen. Aber es stimmt, dass Kanada in der KI-Forschung überproportional erfolgreich ist. Ich glaube, das liegt am kanadischen Bildungs- und Forschungssystem. Es zieht vielleicht Leute an, die nichts mit dem militaristischen System des US-Imperiums zu tun haben wollen.

Denken Sie, dass auch Ihr eigenes Openmind Research Institute in Kanada erfolgreich sein wird?

Das Openmind Research Institute ist ein Versuch, wirklich offene KI-Forschung zu betreiben. Wir wollen weder für das US-Imperium noch für Kanada oder China arbeiten, sondern für alle. Wir wollen unsere Forschungsergebnisse völlig offen teilen und KI zu einer echt offenen Wissenschaftsdisziplin machen. Wir wollen unsere Intelligenz verstehen und noch grössere Intelligenzen bauen. Wichtige Forschung dieser Art sollte immer offen sein. Nur so kann sie die Freiheit statt den Autoritarismus fördern. Wir sind noch klein, aber wir wachsen stetig und wollen weltweit expandieren.

Exit mobile version