Eine Episode um eine neue Stimme von Chat-GPT zeigt, wie die Tech-Firmen aus dem Silicon Valley gerne vorgehen: Statt um Erlaubnis zu fragen, bitten sie lieber hinterher um Verzeihung. Dabei wäre es eigentlich einfach, eine Stimme künstlich so zu verändern, dass sie nicht mehr identifizierbar ist.

Ein Mann verliebt sich in eine KI – das ist der kuriose Plot des Films «Her»: Ein schüchterner Mann zögert seine Scheidung hinaus. Aus Angst vor der Einsamkeit. Darum schafft er sich ein neues Betriebssystem für seinen Computer an. Kaum installiert, spricht die Software mit ihm.

Am Anfang sind die Gespräche unbeholfen. Doch dann wird Samantha, so nennt sich das System selbst, immer intelligenter. Die Gespräche werden tiefgründiger, erst auf eine freundschaftliche Art und Weise, bald aber auch intim. Das war ein Science-Fiction-Film von 2013. Doch jetzt ist aus der Fiktion Wirklichkeit geworden. Als Open AI vergangene Woche sein neues Sprachmodell Chat-GPT 4.o lancierte, konnte man nicht anders, als an «Her» zu denken.

Denn das neue Modell kommuniziert ähnlich wie Menschen, lacht, provoziert, versteht sogar Sarkasmus. Zur Lancierung postete Open-AI-CEO Sam Altman den Titel des Films auf X: «Her» ohne Kommentar. Davor hatte er an einer Konferenz gesagt, er möge den Film, und bezeichnete ihn als «prophetisch» für die Art und Weise, wie Menschen künftig mit KI interagieren würden.

Am Montag wurde nun bekannt, dass es eine weitere Parallele gibt zwischen «Her» und Chat-GPT 4.o: die Stimme. Scarlett Johannsson, die Schauspielerin, die Samantha ihre Stimme gegeben hatte, erkannte sich in den Demos von Chat-GPT wieder. «Ich war schockiert, wütend und konnte nicht glauben, dass Herr Altman eine Stimme benutzen würde, die meiner so ähnlich ist, dass engste Freunde und Medienschaffende den Unterschied nicht feststellen konnten», schrieb Johansson in einem Instagram-Post, den sie auf dem Profil eines amerikanischen Journalisten veröffentlichte.

Wurde Scarlett Johansson absichtlich übergangen?

Johannson sei von Altman im vergangenen Herbst kontaktiert worden, mit der Anfrage, ob sie der Verwendung ihrer Stimme zustimme. Er habe ihr gesagt, ihre Stimme würde «die Lücke schliessen zwischen Tech-Firmen und der Kreativszene», würde Nutzer «beruhigen» und ihnen dabei helfen, mit der «seismischen Veränderung» in der Beziehung zwischen Menschen und künstlicher Intelligenz besser umzugehen.

Allerdings lehnte es Johansson ab, ihre Stimme für die KI freizugeben, nach «reiflicher Überlegung und aus persönlichen Gründen». Umso überraschter war sie, als die Stimme namens «Sky» in Chat-GPT so tönte wie sie. Zumal Sam Altman sie zwei Tage vor dem Launch des neuen Sprachmodells erneut kontaktiert habe mit der Bitte, nochmals über sein Angebot nachzudenken. «Bevor wir uns austauschen konnten, war das System schon da draussen», schreibt Johansson.

Die Stimme ist Teil unserer Identität

Offenbar sollen Johansson und ihre Familie ihre Stimme sofort erkannt haben. Es würde nicht erstaunen. Die eigene Stimme ist Teil unserer Identität. Nicht nur erkennen wir uns bekannte Personen an ihrer Stimme. Wir lesen aus der Stimme, wie eine Person «gestimmt» ist. Ist jemand nervös, aufgeregt, ängstlich? Je besser wir die Stimme einer Person kennen, desto eher erkennen wir die Gefühlslage einer Person.

«Allerdings kann der Klang einer Stimme verändert werden. Das hören wir etwa, wenn Imitatoren eine prominente Person nachahmen», sagt Jörg Bohlender. Der Arzt hat sich auf Sprach- und Stimmstörungen spezialisiert und arbeitet in der Abteilung Phoniatrie und Klinische Logopädie am Universitätsspital Zürich. Einzig beim Lachen und Weinen höre man die Stimme in ihrer Urform, sagt er. Wie sie dann klinge, das könnten wir willentlich nur wenig verändern.

An den Stimmlippen entsteht der Schall

Grundsätzlich entsteht der Klang der menschlichen Stimme an den sogenannten Stimmlippen zwischen Luftröhre und Rachen. Wenn wir durch die beiden Bänder aus Bindegewebe Luft aus der Lunge pressen, beginnen die Stimmlippen zu vibrieren, und es entstehen Schallwellen.

Je schneller die Luft durch die Stimmbänder fliesst, desto lauter der Ton. Und je mehr wir die Stimmbänder spannen, desto höher der Ton. Wie tief wir sprechen können, wird durch die Anatomie bestimmt. Männer haben längere Stimmbänder als Frauen.

Charakteristisch wird die Stimme durch die Obertöne, aber nicht nur

Individualisiert wird die Stimme auf dem weiteren Weg des Schalls durch den Rachen, die Nasenhöhlen und den Mund. Denn einerseits können wir dort Vokale formen. Andererseits bekommen die Laute dort ihre charakteristische Klangfarbe. So kann eine Stimme für unsere Ohren eher warm, eher blechern, nasal oder gepresst klingen.

Das sogenannte Timbre lässt sich messen und mathematisch fassen, indem die höheren Klangfrequenzen, die sogenannten Obertöne, analysiert werden. Die dafür notwendige Fourier-Analyse ist ein Verfahren aus der Zeit vor der Entwicklung künstlicher Intelligenz.

AI kann jede Stimme imitieren

Die Identität einer Stimme lässt sich aus einer Fourier-Analyse allerdings nicht immer ableiten. Denn geschulte Sprecher können das sogenannte Obertonspektrum ihrer Stimme verändern. Zwar kann ein Mensch die Grösse seiner Nasenhöhlen nicht verändern, wohl aber mithilfe beweglicher Teile wie des Gaumensegels die Form des Resonanzraums modifizieren.

Auch digital lässt sich das Klangspektrum einer Stimme mit altbekannten technischen Verfahren verändern. Umso erstaunlicher ist es, dass sich Open AI nicht die Mühe gemacht haben soll, eine solche Veränderung vorzunehmen. Möglich ist auch, dass Johanssons Stimme sich noch durch andere Charakteristiken besonders auszeichnet.

«Offenbar muss die Stimme von Scarlett Johanson einen hohen Wiedererkennungseffekt haben», sagt der Arzt Bohlender. Verschiedene zusätzliche Faktoren könnten dabei eine Rolle spielen. Etwa kann neben dem Timbre einer Stimme die Artikulation der Konsonanten ganz eigen sein. Sie werden mithilfe von Zunge, Zähnen und Gaumen geformt. Und schliesslich ist die Art und Weise, wie jemand einzelne Silben in einem Satz akzentuiert oder Pausen einfügt, sehr individuell.

Typisch Silicon Valley: Man macht einfach mal?

Inzwischen hat Open AI die Sky-Stimme zurückgezogen und in einem Blog-Eintrag erklärt, wie sie entstanden sei: «Sky ist keine Imitation von Scarlett Johansson, sondern gehört einer anderen Schauspielerin», steht darin. «Um ihre Privatsphäre zu schützen, können wir die Namen unserer Stimmtalente nicht teilen», schreibt Open AI weiter.

Für Martin Steiger, Anwalt und Spezialist für Recht im digitalen Raum, ist das Vorgehen von Open AI typisch für die grossen Silicon-Valley-Firmen: «Man macht einfach mal und hofft, dass man damit durchkommt», sagt Steiger. «Erst wenn sich jemand wirksam dagegen wehrt, krebsen die Firmen zurück.»

Ob es tatsächlich nötig gewesen wäre, die Sky-Stimme offline zu nehmen, ist bisher allerdings unklar. Sollte es sich bewahrheiten, dass Open AI eine Schauspielerin gefunden hat, die tatsächlich wie Scarlett Johansson klingt, ist es im Grundsatz zulässig, dass ihre Stimme auf einer Plattform wie Chat-GPT benützt wird – sofern sie dafür ihre Einwilligung gegeben hatte.

Mehrere Fakten sprechen aber gegen diese Darstellung: Erstens hätte Altman dann zwei Tage vor dem Launch Johansson nicht mehr kontaktieren müssen, schliesslich hätte er das Recht auf seiner Seite. Zweitens ist es zwar möglich, aber unwahrscheinlich, dass das Double von Scarlett Johansson nie öffentlich in Erscheinung trat. «Sie wäre bestimmt ein gern gesehener Gast in Talkshows», sagt Steiger. Da sie laut Open AI Schauspielerin ist, müsste sie der Öffentlichkeit bekannt sein.

Open AI könnte solche Mutmassungen entkräften, indem die Firma öffentlich macht, mit welcher Stimme oder welchen Stimmen die Sky-Stimme trainiert wurde. Nun, da Sky allerdings nicht mehr zugänglich ist, können auch akustische Analysen keinen Aufschluss mehr darüber geben, wie ähnlich Sky und Scarlett Johansson klingen.

Exit mobile version