So lässt sich jeder geschriebene Text zu einem lippensynchronen Video mit eigener Stimme vertonen

Avatar von Marcus Schwarze

Künstliche Intelligenz klont die eigene Stimme. Damit lassen sich beliebige Texte vertonen. Und in ein Video anhand von Bildern umwandeln. Zumindest die Stimme wirkt dadurch frappierend echt.

Das unglaub­li­che Tem­po bei der künst­li­chen Intel­li­genz (KI) bringt dem Otto-Nor­mal-Ver­brau­cher und der Anna-Spe­zi­al-Ver­brau­che­rin Anwen­dun­gen, die frü­her Fach­leu­te vor­be­hal­ten war. Die­sen Text habe ich klas­sisch am Com­pu­ter getippt. Das Video unten ent­stand dar­aus in der Maschine.

Und zwar, ohne dass ich den Text je ein­ge­spro­chen habe. Die Stim­me ist com­pu­ter­ge­neriert. Und die Lip­pen­be­we­gun­gen im Video sind es ebenfalls.

Die Anwen­dung basiert auf Ele­ven­Labs. Deren Sprach­mo­dul erlaubt es, mei­ne Stim­me zu syn­the­ti­sie­ren. Min­des­tens eine Minu­te von einem belie­bi­gen Text spricht man vor, schon lässt sich die Stim­me klonen.

Wenige Minuten der Stimme genügen

Wer mich kennt und in dem Video hört, dürf­te mich an der Stim­me halb­wegs wie­der­erken­nen. Dabei habe ich hier nur die „Instant“-Schnellversion des Stim­me-Klo­nens ange­wen­det. Ein bes­se­res Modell erfor­dert min­des­tens drei­ßig Minu­ten Ein­spre­chen eines aus­führ­li­chen belie­bi­gen Tex­tes. Dann gelingt das Stim­me-Klo­nen genauer.

So habe ich einen läng­li­chen Spie­gel-Arti­kel vor­ge­le­sen, mich manch­mal ver­has­pelt und von einem Ama­zon-Lie­fe­ran­ten stö­ren las­sen, egal: Ab Juli soll die stark ver­bes­ser­te geklon­te Stim­me aus­ge­lie­fert wer­den, ich habe mich da in eine Schlan­ge ein­ge­reiht. Wer weiß, wozu man das noch braucht.

Die Ver­knüp­fung mit dem Stand­bild und die lip­pen­syn­chro­ne Aus­spra­che erfolgt dann über eine KI-App namens Heygen – oder hier: D‑ID. Da lädt man sein Foto hoch, kopiert den Text die­ses Bei­trags hin­ein – schon spricht der vir­tu­el­le Mar­cus wie gewünscht, was hier steht.

Wer will, kann den viel­leicht zu mono­to­nen Ton auf­pep­pen. Gera­de län­ge­re Tex­te kön­nen schnell lang­wei­lig klin­gen. Dann dreht man etwa an der Stell­schrau­be „Sta­bi­li­tät“, vari­iert die Beto­nung. Es gibt län­ge­re Pau­sen, wo die KI das für emp­feh­lens­wert hält, die Stim­me geht mal hoch und runter.

Texte ohne Ähs und Genuschel

Auf der Stre­cke blei­ben dabei Ähs und Genu­schel, was ich mir schon wün­sche. Auch über­lan­ge Pau­sen in einer nor­ma­len Auf­nah­me, weil viel­leicht gera­de eine Mel­dung auf dem Han­dy ablenk­te, sind eliminiert.

In der Pra­xis muss man auf ein paar Beson­der­hei­ten bei Ele­ven­labs ach­ten. So wird die Jah­res­zahl Zwei­tau­send­drei­und­zwan­zig in Zif­fern­schreib­wei­se als 2023 aus­ge­spro­chen, eng­lisch also, obwohl der Text in Deutsch ist. Aus­ge­schrie­ben funk­tio­niert die Jah­res­zahl aber. Oder das Wort „bei“: Mein Instant-Sprach­mo­dell hat das deut­sche „bei“-Wort nicht rich­tig ange­lernt, also erset­ze ich es im Text durch das eng­li­sche „by“ mit b und Ypsilon.

Klei­nig­kei­ten. Eine gro­ße Num­mer wird aus die­sen Expe­ri­men­ten, wenn man die wei­te­ren Stell­schrau­ben bedient: Der Unter­neh­mens­chef soll in der Monats­bot­schaft auf Deutsch, Eng­lisch, Schwe­disch und Schwei­zer­deutsch die Mit­ar­bei­ten­den anspre­chen? Kein Pro­blem: Die geschrie­be­nen Tex­te las­sen sich von DeepL schnell über­set­zen. Ele­ven­labs gene­riert dann vier Sprach­auf­nah­men. Die wer­den ledig­lich noch mit Heygen und dem Foto des Herrn ver­knüpft – schon gelingt die weit­ge­hend feh­ler­freie Aus­spra­che in den Fremdsprachen.

(Vor­aus­ge­setzt, man hat den Chef ein­mal halb­wegs feh­ler­frei einen belie­bi­gen Text in der Fremd­spra­che ein­spre­chen lassen.)

„Sound happier“ – der Text wirkt freundlicher

Und noch eine Funk­ti­on stellt Heygen bereit: Der schrift­li­che Text lässt sich inhalt­lich sinn­voll kür­zen oder ver­län­gern. Er kann „pro­fes­sio­nel­ler“ oder „anspre­chen­der“ umfor­mu­liert wer­den. „Sound hap­pier“ ist womög­lich ein ande­rer Wunsch an den Text. Klar, auch hier kommt wie­der eine KI ins Spiel, in die­sem Fall GPT.

Zur Ver­fü­gung ste­hen außer­dem vor­ge­ge­be­ne Stim­men – wie geschaf­fen für den wöchent­li­chen Fir­men­pod­cast unab­hän­gig von der Chef­stim­me. Für die Bahn­an­sa­ge ist viel­leicht gera­de ein don­nern­der „Arnold“ zeit­ge­mäß, fürs Ein­stim­men auf schlech­te Geschäfts­zah­len eher ein rück­sichts­voll klin­gen­der Antoni.

Man stel­le sich fröh­li­che­re Bahn­an­sa­gen, ver­ständ­li­che­re Chefan­spra­chen, auf den Kern ver­kürz­te Geschäfts­be­rich­te ohne Geschwa­fel vor.

Die Wirkung wird „echter“

Oder Nord­ko­re­as Dik­ta­tor Kim Jong-un, der nach sei­nem Able­ben noch eine Wei­le zumin­dest Radio­an­spra­chen ver­öf­fent­li­chen lässt. Das lip­pen­syn­chro­ne Abbild ist als Fäl­schung schnell ent­tarnt. Noch. Bei Heygen gibt es bereits zwei pro­fes­sio­nell foto­gra­fier­te Per­so­nen, die Ges­tik mit­ein­be­zie­hen und „ech­ter“ wirken.

Vom Stand­bild als Vor­la­ge zum Video einer älte­ren Rede als Grund­la­ge ist es für die KI nur ein klei­ner Kim.