Roger Köppel spricht plötzlich fliessend Französisch – die KI macht’s möglich

Mit der Technik kann heute jeder mit Brooklyn-Akzent reden und eine neue akustische Identität annehmen. Nicht nur der «Weltwoche»-Chef macht sich dies zunutze. Was bedeutet das für die Gesellschaft?

Die «Weltwoche» erscheint neu auch auf Französisch: Vergangenen Donnerstag startete die Digitalversion «La Weltwoche», in der alle Inhalte der deutschsprachigen Ausgabe auf Französisch übersetzt werden – mithilfe künstlicher Intelligenz (KI). Damit will der Verleger und Chefredaktor Roger Köppel in der Westschweiz neue Leser gewinnen.

Optimieren Sie Ihre Browsereinstellungen

NZZ.ch benötigt JavaScript für wichtige Funktionen. Ihr Browser oder Adblocker verhindert dies momentan.

Bitte passen Sie die Einstellungen an.

Auch den Video-Podcast «Weltwoche Daily» gibt es in der Sprache Molières: In der ersten Sendung spricht Köppel über die Neuheiten der «Weltwosch» und die politische Aktualität – in fliessendem Französisch. Und das, obwohl der Publizist sonst einen starken Deutschschweizer Akzent hat und im Westschweizer Fernsehen, wo er einige Male in der Sendung «Infrarouge» zu Gast war, noch um Worte rang. Wie also spricht der Publizist plötzlich so gewandt Französisch?

Die Antwort gibt Köppel direkt im Podcast: Mithilfe einer künstlichen Intelligenz werden seine Worte simultan und lippensynchron übersetzt. Das klingt zuweilen, als würde ein Amerikaner Französisch sprechen; der Akzent changiert zwischen Québécois und Wallonisch. Und bei der Aussprache des Buchstabens «w» («double v») der Internetadresse scheint sich der Stimmklon beinahe zu verschlucken.

An die Stimme angepasstes Gesicht

Der Chefredaktor der «Weltwoche» bittet die technischen Unzulänglichkeiten zu entschuldigen: Die Varianten der Aussprache seien «noch nicht optimal», aber man arbeite an der Technik. Das System sei in der Lage, zu lernen. In der Ankündigung zur französischsprachigen Aussprache schwärmt Köppel von «Pluralismus» und «Vielfalt».

Die Idee, mithilfe von KI neue Leser- und Medienmärkte zu erschliessen, ist nicht neu. Die BBC experimentierte bereits vor einigen Jahren mit einer KI-Software, die den Nachrichtensprecher Matthew Amroliwala Sprachen sprechen liess, die er eigentlich nicht beherrscht: Spanisch, Mandarin und Hindi. Zunächst sprach der Anchorman ein Skript im Studio ein, dann wurde derselbe Text von Muttersprachlern vertont, und schliesslich wurde Amroliwalas Gesicht am Computer an die synchronisierte Stimme angepasst.

In digitalen Studios lassen sich massgeschneiderte virtuelle Avatare und Kopien von sich selbst erstellen, die Dutzende Sprachen beherrschen – zum Beispiel für Werbekampagnen. Das amerikanische Startup Elevenlabs hat zudem ein Text-to-Speech-System entwickelt, das Texte mit schottischem, irischem oder kalifornischem Akzent vertont.

Weiter intoniert beispielsweise die weibliche Sprecherstimme Vanessa, die als «Social Media Girl» konfiguriert ist, Texte. Sie verliest diese mit dem typischen Upspeak einer Influencerin, der jeden Satz wie eine Frage intoniert. «Verwenden Sie kalifornische Akzente in Podcasts, Hörbüchern oder Filmen, denen ein Hauch von entspanntem Westküsten-Charme fehlt», wirbt das Startup auf seiner Website. Für die Sozialingenieure im Silicon Valley ist die menschliche Stimme nur ein Datenpaket, das sich in ein anderes Format konvertieren lässt.

Neutralisierter Akzent

Früher mussten sich Callcenter-Mitarbeiter mühsam ihren indischen Akzent abgewöhnen, damit sie wie der Kumpel um die Ecke klingen, der einem hilft, das Regal richtig aufzubauen oder die Kreditkarte wieder zum Laufen zu bringen. Dank dem technischen Fortschritt ist diese «identity work», wie es die Soziologin Sweta Rajan-Rankin nennt, nicht mehr nötig.

Der weltweit grösste Callcenter-Betreiber, der französische Dienstleistungskonzern Teleperformance, nutzt seit geraumer Zeit eine KI-gestützte Technologie, die den Akzent von Telefonisten «neutralisiert». Die Technik filtert nicht nur störende Hintergrundgeräusche wie das laute Geschnatter und Klackern von Tastaturen, sondern moduliert das Gesagte auch in akzentfreie Sprache, ohne dabei die charakteristische Stimme des Sprechers zu verfälschen.

Ein Machine-Learning-Algorithmus, der mit 50 Millionen Sprachdateien trainiert wurde, identifiziert dabei phonetische Muster und korrigiert Ausspracheabweichungen in Intonation und Satzmelodie. So kann jeder in akzentfreiem American English Kundenanfragen beantworten.

Die KI klingt dabei nicht so blechern wie eine synthetische Computerstimme. Der Autor Wilfred Chan berichtete im «Guardian», dass die KI einen Callcenter-Mitarbeiter aus Bangalore plötzlich mit einer Stimme sprechen lasse, die vom lauten und leicht nasalen Akzent seiner Freunde aus Brooklyn kaum zu unterscheiden sei.

Längst ist die Technik auch in der Politik angekommen: Der New Yorker Bürgermeister Eric Adams nutzte im Wahlkampf KI, um automatisierte Anrufe, sogenannte Robocalls, auf Mandarin durchzuführen. Er sprach Chinesisch, obwohl er diese Sprache gar nicht beherrscht. Ist damit die Grenze zum Deepfake und zur Manipulation schon überschritten? Wie dehnbar dürfen akustische Identitäten sein? Ist die Stimme im Zeitalter der KI noch ein Persönlichkeitsmerkmal?

Kichern wie ein Mensch

Die Nachrichtenagentur Bloomberg berichtete, dass Callcenter-Mitarbeiter immer öfter für KI gehalten würden. Um zu beweisen, dass sie keine Maschine seien, husteten oder kicherten Kundendienstmitarbeiter am Telefon.

Gewiss, Technik hat Sprache schon immer beeinflusst. Dass die Millennials die Chat-Sprache von Messenger-Diensten in die Klassenzimmer brachten und lustige Vorgänge mit einem lakonischen «lol» (ein Akronym für «laughing out loud») quittierten, bedeutete nicht den Untergang des Abendlands. Doch die Frage ist, inwieweit Stimmveränderungssoftware zu Homogenisierungseffekten führt, die lokale Kulturen und Unterschiede nivellieren.

Ein Callcenter-Agent aus Kalkutta, der sich mit freundlichem Brooklyn-Akzent am Telefon meldet, unterliegt ja noch viel stärker dem Konformitätszwang westlicher Kulturen. Zwar will die vermeintlich aufgeschlossene Elite immer viele Stimmen zu Wort kommen lassen. Wenn es aber um so profane Dinge wie den Möbelaufbau oder die Kreditkartenentsperrung geht, will man doch lieber das Bekannte und Gewohnte aus der eigenen Bubble hören. So torpediert KI auch das, was sich der «Weltwoche»-Chefredaktor Roger Köppel auf die Fahnen schreibt: Pluralismus. Wenn Akzente glattgebügelt werden und jeder wie ein Synchronsprecher in einer Telenovela klingt, ist die Welt am Ende nicht reicher.

Im Trend

Steht Mali kurz davor, in die Hände einer al-Qaida-nahen bewaffneten Gruppe zu fallen? | Al-Qaida

FT-Kampagne für Finanzkompetenz und Inklusion

Kundenherausforderung

Optimieren Sie Ihre Browsereinstellungen

An die Stimme angepasstes Gesicht

Neutralisierter Akzent

Kichern wie ein Mensch

Hamburger Opern-Saisonstart mit Tobias Kratzer: Schreck- und Glückssekunden

T. C. Boyle treibt in «No Way Home» einen Arzt in die Existenzkrise

Ein Mystiker religiöser Malerei – Fra Angelico ganz gross in Florenz

Die Hamas hat ein Kriegsziel längst erreicht: Viele Europäer bekennen sich offen zu ihrer antisemitischen Haltung

Schweizer Sprachschulpionier in Russland: «Auch ich musste Schutzgelder bezahlen»

Ewige Peinlichkeit: Helle Helles Buch «Hafni sagt» ist ein grosser Roman in hundert kleinen Szenen

Im Trend

Roger Köppel spricht plötzlich fliessend Französisch – die KI macht’s möglich

Optimieren Sie Ihre Browsereinstellungen

An die Stimme angepasstes Gesicht

Neutralisierter Akzent

Kichern wie ein Mensch

Weiter Lesen