Traditionelle Umfragen sind so schlecht geworden, dass KI angeblich mithalten kann. Wie Wahlumfragen ohne Wähler funktionieren.
Man würde gerne einfach kurz in die Zukunft schauen: Wird es Harris oder wird es Trump? Weil Hellsehen nicht geht, bleiben Polit-Interessierten nur Wahlumfragen. Doch selbst die sind gerade äusserst unbefriedigend: Etablierte amerikanische Umfrageinstitute wie der Cook Political Report getrauen sich nicht, basierend auf Wahlumfragen einen Sieger vorherzusagen. Ihre Daten zeigen ein Kopf-an-Kopf-Rennen.
So weit, so gewöhnlich. Doch jüngst haben Forscher Prognosen veröffentlicht, die auf künstlicher Intelligenz (KI) basieren. Ihre Macher sind mutiger mit Vorhersagen: Sie glauben an den Gewinn von Donald Trump. Aaru, ein Startup aus New York, prognostizierte am Freitag, Harris gewinne zwar die Volkswahl, aber Trump vereine mehr Elektorenstimmen auf sich als Harris und werde damit erneut ins Weisse Haus einziehen. Zwei KI-Forscher der Universitäten Amsterdam und Oxford kommen zu dem gleichen Schluss.
Es gibt gute Gründe, diesen Prognosen mit Skepsis zu begegnen. KI hat in vergangenen Wahlen schliesslich schon Wahldaten erfunden, irreführende Anleitungen zur Stimmabgabe halluziniert, nicht einmal das Wahlalter konnte die KI richtig angeben. Deshalb scheint es auf den ersten Blick lächerlich, KI für eine Wahlumfrage einzusetzen.
Dem widersprechen Menschen, die sich genauer damit beschäftigt haben. Roberto Cerina, Assistenzprofessor an der Universität Amsterdam, der ein KI-Tool zur Analyse der öffentlichen Meinung gebaut hat, sagt: «Ich war überrascht, wie gut das funktioniert.» Hätte er seine KI-basierte Analysemethode namens Possum schon vor den 2020-Wahlen gehabt, hätte er mit den besten Umfrageinstituten mithalten können. Das zeigt seine Studie aus dem Jahr 2023.
KI-Agenten werden zur Wahlpräferenz befragt
Auch Aaru, die KI-Firma aus New York, hätte die durchschnittliche Wahlumfrage laut Eigenangabe geschlagen, in 4 von 5 Präsidentschaftswahlen seit 2004. Aaru verwendet für seine Prognosen erfundene Persönlichkeitsprofile.
Konkret erfindet Aaru pro Gliedstaat mehrere zehntausend Profile von Menschen, die mit Eigenschaften wie Alter, Geschlecht, Einkommen, Hautfarbe, Schulabschluss, aber auch mit Detailwissen wie der T-Shirt-Grösse oder allfälligen Abos für Onlinemedien angereichert werden. Diese Persönlichkeitsprofile werden KI-Agenten genannt.
Den Agenten stellt Aaru in einem KI-Sprachmodell die Frage: Harris oder Trump? Die KI generiert darauf eine Wahlpräferenz. Danach werden die Antworten der Agenten auf die ganze Bevölkerung des Gliedstaats hochgerechnet.
Roberto Cerina verwendet eine andere Methode: Er nutzt die Daten von ungefähr 1000 X-Nutzerinnen und -Nutzern verschiedenen Geschlechts und Alters. Zuerst lässt er Chat-GPT die Posts der Nutzer analysieren. Die KI generiert dann für jeden X-Nutzer unter anderem eine politische Ausrichtung, eine Schätzung für ein Haushalteinkommen und eine Zuordnung zu einer Ethnie.
Danach lässt er das Tool eine Wahlpräferenz für jedes der 1000 Profile erstellen und gewichtet ihre Antworten so, dass die nicht-repräsentative Stichprobe von X-Nutzern auf die Gesamtbevölkerung der USA hochgerechnet wird.
«Dieses Vorgehen ist natürlich alles andere als perfekt, wir müssen viele Dinge annehmen, die wir nicht wissen können», sagt Cerina. Ob die Prognosen stimmen, sei daher unklar.
Aaru ist da selbstbewusster: «Unser Modell ist genauer und schneller als alle anderen Umfragen», schreibt die Firma auf Anfrage. Dies zeigten historische Vergleiche.
Traditionelle Umfragen werden immer schlechter
Gegenüber traditionellen Umfragen hat die Methodik mit KI einen entscheidenden Vorteil: Sie kostet sehr wenig. Cerina schätzt den Aufwand für eine Berechnung mit seinem Modell im Moment auf 1000 Dollar, die er für die Schnittstellen zu X und zu Chat-GPT bezahlen muss. Im Vergleich zu den Kosten für Tausende Telefonanrufe, die Umfrageinstitute in den USA üblicherweise bezahlen, ist das verschwindend gering.
Dazu kommt: «KI-generierte Umfragen sind vielversprechend, weil die herkömmliche Umfrageindustrie gerade in einer tiefen Krise steckt», sagt Cerina. Tatsächlich wird es für Umfrageinstitute immer schwieriger, Menschen über Politthemen zu befragen. Nahmen in den 1990er Jahren noch über ein Drittel aller Menschen in den USA ihr Telefon ab und waren bereit, über ihre politische Meinung Auskunft zu geben, ist es heute laut dem Wissenschaftsmagazin «Scientific American» nur noch rund 1 Prozent der Bevölkerung.
Mit der Antwortrate sinkt die Qualität der Wahlumfrage: «Wer heute auf Wahlumfragen antwortet, ist ein Aussenseiter», schreibt das Magazin. Wenn nur noch 1 Prozent der Leute die Umfrage beantworten, sei das keine zufällige Probe der Gesamtbevölkerung mehr. Die Verzerrung könne auch im Prozess des Hochrechnens nicht mehr korrigiert werden.
In der Probe von Cerina ist das allerdings gleich: Er errechnet aus Daten zu 1000 X-Nutzern die Wahlpräferenz von 345 Millionen Amerikanern. Dabei können viele Fehler passieren. Gut möglich also, dass KI-Umfragen nur deshalb so gut erscheinen, weil echte Umfragen in den vergangnen Jahren immer schlechter geworden sind.
Umfrageinstitute prognostizierten den Gewinn von Hillary Clinton
Zum Aufreger wurden die ungenauen Prognosen spätestens mit der Wahl von Donald Trump im Jahr 2016. Vor der Wahl gingen die meisten Umfrageinstitute davon aus, Hillary Clinton würde mit einer Wahrscheinlichkeit von über 70 Prozent gewählt werden. Dass es dann anders kam, erklärten viele Analysten mit der Hypothese der «Shy Trump Supporter»: Gemäss dieser Theorie hätten Tausende Wählerinnen und Wähler ihre Stimme zwar Trump gegeben, bei Umfragen aber behauptet, Clinton unterstützen zu wollen.
Wissenschaftliche Evidenz für diese Hypothese wurde zwar nicht gefunden. Eine Verzerrung durch lügende, abgelenkte oder kurz angebundene Menschen bei Umfragen wäre aber dennoch denkbar. Gleiches kann man aber auch über die Daten von Aaru oder von Cerina sagen: Die KI kann unplausible Antworten halluzinieren, und die Menschen auf Twitter mögen ihre politischen Meinungen unter- oder übertreiben.
Damit sind Umfragen weiterhin ein bisschen wie Kaffeesatzlesen: mehr Deutung als Wissen. Egal ob mit KI oder ohne.