Spotify übersetzt auf Wunsch automatisch Podcasts

Podcaster bei Spotify können ihre Zielgruppe nun ganz leicht vergrößern, nämlich um Menschen anderer Sprachen.

In Pocket speichern vorlesen Druckansicht 4 Kommentare lesen

(Bild: norazaminayob/Shutterstock.com)

Lesezeit: 3 Min.

Spotify und OpenAI arbeiten zusammen, um Podcastern die Möglichkeit zu geben, sich selbst in andere Sprachen zu übersetzen. Das geschieht nahezu vollständig automatisch und sogar in der Stimme des Podcasters. Das KI-Übersetzer-Tool ist zunächst für einige ausgewählte Podcaster verfügbar, die ihre Folgen von Englisch auf Spanisch, Französisch und Deutsch übersetzen lassen können.

Die Übersetzungen werden mit OpenAIs Whisper gemacht. Wobei Whisper eigentlich zur Transkription von Texten spezialisiert ist. Diese können dann aber wieder in Sprache verwandelt werden. Um die Originalstimme eines Podcasters wiederzugeben, muss dieser zunächst eine synthetische Version seiner Stimme anlegen, dafür reichen wenige Sekunden Audio-Eingabe aus. Das ist freilich nicht für jedermann möglich, auch aus Sicherheitsgründen, schreibt OpenAI: "Diese Möglichkeiten bürgen auch neue Risiken, wie den Missbrauch, um bekannte Personen zu imitieren oder anderweitigen Betrug."

Deshalb steckt eine weitere Version der Sprach-Technologie in der ebenfalls gerade erst angekündigten Sprachassistenten-Funktion von ChatGPT. Dabei hat OpenAI selbst mit professionellen Synchronsprechern zusammengearbeitet, um ihre Stimmen zu synthetisieren. Diese sollen zwar nach wie vor ein wenig blechern klingen, aber doch nah am Original sein und damit ein ganz anderes Erlebnis ermöglichen, als bisherige Sprachassistenten wie etwa Alexa oder Siri.

Spotify schreibt in der Ankündigung zur Voice Translation für Podcaster: "Mit den jüngsten Fortschritten haben wir uns gefragt: Gibt es mehr Möglichkeiten, die Sprachbarriere zu überbrücken, damit diese Stimmen weltweit gehört werden können?" Die ersten Tester sind Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons und Steven Barlett, allesamt englischsprachige Podcaster. Es werden sowohl einige vergangene Folgen übersetzt als auch kommende Episoden. Weitere Podcaster sollen freilich bald folgen, beispielsweise steckt Trevor Noah bereits in der Pipeline.

Auch Youtube hat bereits eine KI-gestützte Übersetzungsfunktion für Videos herausgebracht. Damit können Youtuber alternative Tonspuren erstellen, um ein breiteres Publikum zu erreichen. Auch diese Funktion ist bisher nur für ausgewählte Menschen und Sprachen verfügbar. Sie funktioniert ebenso wie die Zusammenarbeit von OpenAI und Spotify. Es wird zunächst ein Transkript der Audiospur angefertigt, dieses übersetzt und dann erneut an ein Text-to-Speech-Modell übergeben. Zuständig bei Google ist das Aloud-Team. Allerdings gibt es bisher keine Möglichkeit, die eigene synethetisierte Stimme zu nutzen. Bisher ist es eine computergenerierte Stimme, die die Übersetzung dann vorträgt. Google hat jedoch bereits angekündigt, dass sich das ändern wird.

Auf der Google I/O hatte Google zuletzt auch die aktuelle Version des Universal Translators vorgestellt. Mit diesem sind genau solche Übersetzungen sogar samt Video und lippensynchroner Bewegungen möglich. Er wird bisher aus Sicherheitsgründen nicht veröffentlicht. Anders schaut es mit Hey Gen aus, das ist ein frei verfügbares Tool, das genau solche Übersetzungen für Videos kann und damit kürzlich für Aufsehen in den sozialen Netzwerken sorgte.

(emw)