Nutzer fluten die sozialen Netzwerke mit Videos von Sora. Sie sind verblüffend gut – solange man nicht weiss, wo man die Fehler suchen soll.
Wenn Sie jedes erdenkliche Video drehen könnten, ungeachtet des Budgets, der Schauspieler oder physikalischer Gesetze – was würden Sie zeigen?
Einen surfenden Hund?
Sora — «A golden retriever, with a shiny wet coat, skillfully balances on a surfboard as it rides a gentle wave at Pacifica Beach. The dog’s tongue hangs out in excitement, and its eyes are focused on the horizon. The backdrop includes the wide expanse of the ocean with rolling… pic.twitter.com/s5epk81RvB
— edwin (@edwinarbus) December 9, 2024
Einen Mann, der auf einer riesigen Schnecke reitet?
Kurzvideos mit jedem erdenklichen Inhalt kann nun jedermann erstellen. Denn Open AI hat sein Videowerkzeug Sora, das mit generativer KI kurze Videosequenzen erzeugt, für den Massenmarkt geöffnet. «Wir wollen nicht, dass die Welt nur aus Text besteht», sagte CEO Sam Altman bei der Ankündigung; Videos seien ebenfalls «wichtig für unsere Kultur».
Seit dieser Woche steht Sora Millionen von zahlenden Open-AI-Kunden offen. Ausgenommen sind Nutzer in der Europäischen Union, der Schweiz und Grossbritannien. Open AI arbeite aber daran, das Tool auch in diesen Ländern zugänglich zu machen, sagte Altman am Montag.
Ähnlich wie beim Start von Chat-GPT vor zwei Jahren wurde Open AI von der Nachfrage überrollt: Trotz Kosten von mindestens 20 Dollar im Monat war der Server der Firma in den vergangenen Tagen oft überlastet. Nun fluten Open-AI-Kunden die sozialen Netzwerke mit ihren KI-generierten Videos. Ein Nutzer erstellte eine Dokumentation über die ersten Menschen auf der Welt, die den gegenwärtigen Stand der Technik gut illustriert.
Der vierminütige Clip zeigt Szenen einer Geburt, einer Beerdigung, einer Jagd sowie einen Drohnenflug aus einer Höhle heraus. Bemerkenswert ist, wie gut die Sora-KI das Storytelling umsetzt: Kamerawinkel variieren, der Schattenwurf von Gegenständen und der Faltenwurf von Kleidungsstücken scheinen oft real. Auch Videoclips mit KI-Bildfehlern kommen vor, der Macher baute sie gekonnt in eine Szene, die mysteriös wirken soll. Vertraut man den Angaben auf der Meta-Plattform Threads, wurde das Video in nur einer Woche generiert und zusammengeschnitten.
This is crazy.
X user @KNGMKRlabs created an entire 4:18 video about “The First Humans” using @OpenAI’s Sora, combined with an AI generated narrator. It took him only a week to prompt and stitch together.
AI isn’t getting crazy. It already is crazy! pic.twitter.com/kX0zSAgLui
— Ed Krassenstein (@EdKrassen) December 10, 2024
«Revolutionär», so kommentierte ein Nutzer. Ein anderer fragte kritisch: «Warum sollen wir Dienste unterstützen, die Menschen überflüssig machen? Was ist die Kunst dabei?»
Die Kritik war erwartbar. Viele Künstler blicken verärgert auf Open AI, weil sie davon ausgehen müssen, dass die KI unter anderem mit ihren Werken trainiert worden war. Nun müssen sie dabei zusehen, wie das neue Tool ihre Arbeit automatisiert. Dass dabei Tausende Stellen in der Kreativszene gestrichen werden dürften, illustriert ein Werbefilm der Spielzeugfirma Toys ’R’ Us. Er wurde mithilfe von Sora generiert und von einem Dutzend Fachspezialisten bearbeitet, wie das Tech-Portal «The Verge» bei der Veröffentlichung berichtete. Ein Filmstudio und Schauspieler brauchte es dafür nicht mehr.
Open AI verheimlicht seine Quellen
Welche Daten Open AI für das Training von Sora verwendet hatte, verheimlicht die Firma. Man habe «öffentlich zugängliche» Quellen verwendet, heisst es von Open AI, ebenso lizenzierte Fotodatenbanken wie jene von Shutterstock. Auch mit Daten aus Computerspielen wie Minecraft dürfte Sora gefüttert worden sein. In einem Interview mit dem «Wall Street Journal» von Februar bestritt die damalige Technologiechefin Mira Murati allerdings nicht explizit, dass Sora auch mit Daten von Instagram, Facebook und Youtube trainiert worden war.
Denselben Verdacht hegt auch der bekannte Youtuber Marques Brownlee, dem fast 20 Millionen Nutzer folgen. Als er jüngst Sora testete, machte er einen bizarren Fund: Brownlee bat die Software, das Video eines Journalisten zu generieren, der Tech-Produkte testet. Obwohl Brownlee nicht spezifiziert hatte, wie das Büro des Journalisten aussehen soll, tauchte in Soras Video genau die gleiche Pflanze auf, die er selbst in seinen Videos als Dekoration auf dem Tisch hat. «Wurde Sora an meinen Videos trainiert? Ich weiss es nicht. Ich weiss auch nicht, ob es zu spät ist, um meine Zustimmung zu verweigern», sagte Brownlee.
Nun werden Millionen von Nutzern in den kommenden Wochen die Grenzen von Sora weiter austesten – und dem Tool damit helfen, noch besser zu werden. Das hat auch politische Implikationen. Denn je besser Sora wird, desto schwieriger wird es, künstlich generierte Videos von echten zu unterscheiden.
Experten warnen vor täuschend echter Desinformation
Hany Farid, der an der Universität Berkeley zu Falschinformationen forscht, warnte auf der Tech-Plattform «New Scientist» bereits im Februar: «In Kombination mit KI-gestützten Stimmklonen kann diese Technologie völlig neue Möglichkeiten schaffen, Deepfakes von Menschen zu erstellen, die angeblich Dinge sagen und tun, die sie in Wahrheit nie getan haben.»
Open AI hat deswegen die Anwendungsbereiche für Sora eingeschränkt: Das Programm generiert keine Videos von Politikern, Stars oder sonstigen bekannten Personen. Weiter verweigert es die Erstellung von Videos mit sexuellen Inhalten. Zudem versieht Open AI die Sora-generierten Videos mit einem Firmenlogo in der rechten unteren Bildecke. Dies soll Nutzern zeigen, dass das Video nicht echt, sondern computergeneriert ist. Allerdings ist das Logo winzig klein und liesse sich problemlos herauseditieren.
Auf die Kritik, man könne ihre Tools für schädliche Zwecke missbrauchen, entgegnet Open AI immer wieder, man führe die Technologie jetzt ein, «um der Gesellschaft Zeit zu geben, ihre Möglichkeiten zu erkunden und gemeinsam Normen und Sicherheitsvorkehrungen zu entwickeln, die einen verantwortungsvollen Umgang mit ihr gewährleisten, während sich das Feld weiterentwickelt». So schrieb es Open AI jüngst auch in einem Blog-Post.
Sora versteht keine Physik
Allerdings sind viele Sora-Videos für ein geschultes Auge noch immer als computergeneriert erkennbar, auch ohne Logo als explizite Kennzeichnung. Zum Beispiel bricht Sora oft Naturgesetze, wie man in einem Video einer Gymnastin sieht: Ihr Körper fliegt durch die Luft, plötzlich sind Arme und Beine vertauscht.
As cool as the new Sora is, gymnastics is still very much the Turing test for AI video.
1/4 pic.twitter.com/X78dNzusNU
— Deedy (@deedydas) December 10, 2024
Auch im Test der NZZ hatte Sora Probleme mit grundlegenden physikalischen Gesetzen. Der Auftrag lautete: «Zeige einen Hasen im Schoss eines Menschen, der mit dem Paraglider über den Pazifik fliegt.» Im generierten Video verschwindet, wie bei einem Zaubertrick, der Hase immer wieder im Ärmel des Paraglider-Piloten.
Bei einem anderen Versuch scheint der Fallschirm unter den Seilen festzuhängen, statt darüber zu schweben.
Andere Nutzer haben festgestellt, dass in Sora-Videos oft Objekte aus dem Nichts auftauchen oder plötzlich verschwinden, wenn sich vor ihnen etwas bewegt. So entstehen in einem Video mit drei spielenden Wölfen plötzlich unzählige weitere Tiere aus dem Nichts.
Open AI gab in einem Blogpost zu, dass Sora «häufig unrealistische Physik generiert und Probleme mit konsistenten Handlungen über einen längeren Zeitraum» habe.
Trotzdem schneidet Sora im Test der NZZ besser ab als die Konkurrenz. Auf den Auftrag «Generiere das Video eines älteren weissen Mannes in einem blauen Anzug, der in Washington, DC an einem verschneiten Tag zum Präsidenten vereidigt wird», präsentiert Sora ein wesentlich ansprechenderes Video als das Werkzug Hunyuan der chinesischen Firma Tencent oder andere Video-KI-Tools wie Kling, Minimax, Haiper oder Mochi.
Der alte Mann, den Sora generiert, steht an einem Rednerpult und hebt die Hand, wie zu einem Schwur oder einer Begrüssung. Auf den ersten Blick scheint die Szene verblüffend echt. Wer genau hinschaut, sieht allerdings, dass eine Flagge im Hintergrund einen Farbfehler hat. Weiter ist das grosse Siegel der Vereinigten Staaten, das Hoheitszeichen, das auf dem Rednerpult prangt, mit sinnlosen Wörtern beschriftet.
Probleme der Logik bleiben ungelöst
Open AI hatte Sora erstmals Mitte Februar vorgestellt. Die Ergebnisse fielen unterschiedlich aus: Für Spott sorgten Videos wie jenes eines Schach spielenden Affen – das Schachbrett ist offensichtlich zu klein, und die Königsfigur gibt es gleich drei Mal.
— Sam Altman (@sama) February 15, 2024
Verblüffend gut war das Video einer Frau, die nachts durch die Strassen Tokios läuft. Man sieht Unregelmässigkeiten in ihrer Hautstruktur, man sieht ihr Make-up und den Schatten, den die Sonnenbrille auf ihre Wangen wirft. Aber auch in diesem Clip trägt sie plötzlich eine andere Jacke, und die Perspektive scheint bisweilen verzerrt.
Inzwischen ist Sora schneller geworden, grundlegende Probleme der Logik konnten aber nicht gelöst werden. Solange das nicht gelingt, sind sowohl die Gefahren wie auch der Nutzen der Technologie noch limitiert. Eine interessante Spielerei für Tech-affine Videoliebhaber ist Sora trotzdem.