jTest - Text-to-Speech und Speech-to-Text

15. Januar 2014 - Joachim Sauer

Beitragsseiten

Seite 3 von 4

TEXT-TO-SPEECH
KI-Stimme als Sprachausgabe ist spätestens mit dem Aufkommen von Navigationsgeräten ein alter Hut. Doch die Filmvertonung ist etwas komplizierter als ein Sprachbot auf Telefonansage-Niveau. Magix hat bereits in der letzten Version die KI-Stimmen integriert, aber in der aktuellen Version verbessert. Die Stimmen klingen nun natürlicher, wenn auch noch nicht ganz so perfekt wie eine echte Sprecherstimme. Am besten gefallen hat uns eine Frauenstimme, die, passend zu unserer Heimat-Region, mit Schweizer Akzent spricht und dabei natürlich klingt, auch wenn sich Anglizismen in den Text einschleichen. Ganz prinzipiell sind Anglizismen aber immer schwierig. Wer das beim Texten berücksichtigt und neutrale klare Aussagen bevorzugt bekommt einen anständigen und sauber gesprochenen Kommentar, der schnell erstellt ist und auch nachträgliche Korrekturen einfach macht.

Für die Text-To-Speech-Funktion hat man je nach Version ein bestimmtes Zeichen-Kontingent zur Verfügung.

SPEECH-TO-TEXT
Den umgekehrten Weg geht man, wenn man die im Video gesprochene Sprache in Untertitel umwandeln möchte. Auch hier wurde die Spracherkennung verbessert und die Genauigkeit erhöht, so dass man nun den Text erheblich weniger händisch korrigieren muss. Mit den so gewonnenen Texten lassen sich verschiedene Dinge anstellen – zum Beispiel übersetzen und durch eine KI-Voiceover-Stimme neu nachsynchronisieren. Bekannt ist diese Funktion inzwischen von YouTube, die Videos großer Kanäle automatisch umwandeln und dann mit Ton in der jeweiligen Landessprache ausspielen. Der Haken daran: Die Funktion basiert allein auf KI – ohne die Möglichkeit korrigierend eingreifen zu können. Es macht also durchaus sehr viel Sinn selbst eine entsprechende Sprachversion anzubieten. Erfreulich dabei: In englischer Sprache ist die KI-Stimmauswahl noch etwas größer als in deutscher Sprache.

Wer sein Video auch in einer englischen Sprachvariante anbieten möchte, kann auf einen bunten Strauß an KI-Sprachmodellen mit unterschiedlichen Dialekten und Altersklassen zurückgreifen.