Schlagwort: Stimme

  • So lässt sich jeder geschriebene Text zu einem lippensynchronen Video mit eigener Stimme vertonen

    So lässt sich jeder geschriebene Text zu einem lippensynchronen Video mit eigener Stimme vertonen

    Das unglaub­li­che Tem­po bei der künst­li­chen Intel­li­genz (KI) bringt dem Otto-Nor­mal-Ver­brau­cher und der Anna-Spe­zi­al-Ver­brau­che­rin Anwen­dun­gen, die frü­her Fach­leu­te vor­be­hal­ten war. Die­sen Text habe ich klas­sisch am Com­pu­ter getippt. Das Video unten ent­stand dar­aus in der Maschine.

    Und zwar, ohne dass ich den Text je ein­ge­spro­chen habe. Die Stim­me ist com­pu­ter­ge­neriert. Und die Lip­pen­be­we­gun­gen im Video sind es ebenfalls.

    Die Anwen­dung basiert auf Ele­ven­Labs. Deren Sprach­mo­dul erlaubt es, mei­ne Stim­me zu syn­the­ti­sie­ren. Min­des­tens eine Minu­te von einem belie­bi­gen Text spricht man vor, schon lässt sich die Stim­me klonen.

    Wenige Minuten der Stimme genügen

    Wer mich kennt und in dem Video hört, dürf­te mich an der Stim­me halb­wegs wie­der­erken­nen. Dabei habe ich hier nur die „Instant“-Schnellversion des Stim­me-Klo­nens ange­wen­det. Ein bes­se­res Modell erfor­dert min­des­tens drei­ßig Minu­ten Ein­spre­chen eines aus­führ­li­chen belie­bi­gen Tex­tes. Dann gelingt das Stim­me-Klo­nen genauer.

    So habe ich einen läng­li­chen Spie­gel-Arti­kel vor­ge­le­sen, mich manch­mal ver­has­pelt und von einem Ama­zon-Lie­fe­ran­ten stö­ren las­sen, egal: Ab Juli soll die stark ver­bes­ser­te geklon­te Stim­me aus­ge­lie­fert wer­den, ich habe mich da in eine Schlan­ge ein­ge­reiht. Wer weiß, wozu man das noch braucht.

    Die Ver­knüp­fung mit dem Stand­bild und die lip­pen­syn­chro­ne Aus­spra­che erfolgt dann über eine KI-App namens Heygen – oder hier: D‑ID. Da lädt man sein Foto hoch, kopiert den Text die­ses Bei­trags hin­ein – schon spricht der vir­tu­el­le Mar­cus wie gewünscht, was hier steht.

    Wer will, kann den viel­leicht zu mono­to­nen Ton auf­pep­pen. Gera­de län­ge­re Tex­te kön­nen schnell lang­wei­lig klin­gen. Dann dreht man etwa an der Stell­schrau­be „Sta­bi­li­tät“, vari­iert die Beto­nung. Es gibt län­ge­re Pau­sen, wo die KI das für emp­feh­lens­wert hält, die Stim­me geht mal hoch und runter.

    Texte ohne Ähs und Genuschel

    Auf der Stre­cke blei­ben dabei Ähs und Genu­schel, was ich mir schon wün­sche. Auch über­lan­ge Pau­sen in einer nor­ma­len Auf­nah­me, weil viel­leicht gera­de eine Mel­dung auf dem Han­dy ablenk­te, sind eliminiert.

    In der Pra­xis muss man auf ein paar Beson­der­hei­ten bei Ele­ven­labs ach­ten. So wird die Jah­res­zahl Zwei­tau­send­drei­und­zwan­zig in Zif­fern­schreib­wei­se als 2023 aus­ge­spro­chen, eng­lisch also, obwohl der Text in Deutsch ist. Aus­ge­schrie­ben funk­tio­niert die Jah­res­zahl aber. Oder das Wort „bei“: Mein Instant-Sprach­mo­dell hat das deut­sche „bei“-Wort nicht rich­tig ange­lernt, also erset­ze ich es im Text durch das eng­li­sche „by“ mit b und Ypsilon.

    Klei­nig­kei­ten. Eine gro­ße Num­mer wird aus die­sen Expe­ri­men­ten, wenn man die wei­te­ren Stell­schrau­ben bedient: Der Unter­neh­mens­chef soll in der Monats­bot­schaft auf Deutsch, Eng­lisch, Schwe­disch und Schwei­zer­deutsch die Mit­ar­bei­ten­den anspre­chen? Kein Pro­blem: Die geschrie­be­nen Tex­te las­sen sich von DeepL schnell über­set­zen. Ele­ven­labs gene­riert dann vier Sprach­auf­nah­men. Die wer­den ledig­lich noch mit Heygen und dem Foto des Herrn ver­knüpft – schon gelingt die weit­ge­hend feh­ler­freie Aus­spra­che in den Fremdsprachen.

    (Vor­aus­ge­setzt, man hat den Chef ein­mal halb­wegs feh­ler­frei einen belie­bi­gen Text in der Fremd­spra­che ein­spre­chen lassen.)

    „Sound happier“ – der Text wirkt freundlicher

    Und noch eine Funk­ti­on stellt Heygen bereit: Der schrift­li­che Text lässt sich inhalt­lich sinn­voll kür­zen oder ver­län­gern. Er kann „pro­fes­sio­nel­ler“ oder „anspre­chen­der“ umfor­mu­liert wer­den. „Sound hap­pier“ ist womög­lich ein ande­rer Wunsch an den Text. Klar, auch hier kommt wie­der eine KI ins Spiel, in die­sem Fall GPT.

    Zur Ver­fü­gung ste­hen außer­dem vor­ge­ge­be­ne Stim­men – wie geschaf­fen für den wöchent­li­chen Fir­men­pod­cast unab­hän­gig von der Chef­stim­me. Für die Bahn­an­sa­ge ist viel­leicht gera­de ein don­nern­der „Arnold“ zeit­ge­mäß, fürs Ein­stim­men auf schlech­te Geschäfts­zah­len eher ein rück­sichts­voll klin­gen­der Antoni.

    Man stel­le sich fröh­li­che­re Bahn­an­sa­gen, ver­ständ­li­che­re Chefan­spra­chen, auf den Kern ver­kürz­te Geschäfts­be­rich­te ohne Geschwa­fel vor.

    Die Wirkung wird „echter“

    Oder Nord­ko­re­as Dik­ta­tor Kim Jong-un, der nach sei­nem Able­ben noch eine Wei­le zumin­dest Radio­an­spra­chen ver­öf­fent­li­chen lässt. Das lip­pen­syn­chro­ne Abbild ist als Fäl­schung schnell ent­tarnt. Noch. Bei Heygen gibt es bereits zwei pro­fes­sio­nell foto­gra­fier­te Per­so­nen, die Ges­tik mit­ein­be­zie­hen und „ech­ter“ wirken.

    Vom Stand­bild als Vor­la­ge zum Video einer älte­ren Rede als Grund­la­ge ist es für die KI nur ein klei­ner Kim.

  • Das Herz auf der Zunge

    Das Herz auf der Zunge

    Wer die bei­den nicht kennt, also für die älte­ren unter uns: Das sind so unge­fähr der Howard Car­penda­le und der Roland Kai­ser von Kana­da. Ich bin noch nicht sicher, ob das Lied viral geht. Aber die Zugriffs­zah­len nach einem Tag sind schon beachtlich.

    Das Beson­de­re: Die Musik stammt angeb­lich aus Maschi­nen und wur­de dem beglei­ten­den Text und den Kom­men­ta­ren zufol­ge aus künst­li­cher Intel­li­genz (KI) erstellt. Jemand mit dem Pseud­onym ghostwriter977 rekla­miert, ihn her­ge­stellt zu haben.

    Ich sage das so vor­sich­tig, weil ich nicht über­prü­fen konn­te, ob es tat­säch­lich ein KI-Pro­dukt ist – oder eine geschick­te Wer­be­kam­pa­gne der bei­den Sän­ger. Der Titel heißt übri­gens „Heart on my Slee­ve“, zu Deutsch in etwa: Das Herz auf der Zun­ge.

    Wahr ist jeden­falls, dass mitt­ler­wei­le auch Schnip­sel von Ton­auf­nah­men von Stim­men hoch­ge­la­den wer­den kön­nen, um KIs zu trai­nie­ren. Und Musik-KIs künst­li­che Songs „im Sti­le von“ generieren.

    Ein Urhe­ber­recht an Stim­men? Die Musik­in­dus­trie dürf­te ein­mal mehr umge­krem­pelt wer­den. Stand Sonn­tag­nach­mit­tag waren die bei­den Auf­nah­men noch nicht von Tik­Tok und You­Tube gelöscht.

    Der Song ist für mei­nen Geschmack und den vie­ler Kom­men­ta­to­ren nicht schlecht, und wer weiß, viel­leicht tun sich die Sän­ger ja tat­säch­lich zusam­men und neh­men ihn „in echt“ auf.

    Das aller­dings wäre eine Vol­te, mit der sich die Musi­ker kaum vor finan­zi­el­len Ein­bu­ßen und dem Dieb­stahl ihrer Stim­men und künst­le­ri­schen Leis­tun­gen durch KIs (und man­che KI-Jün­ger) schüt­zen wür­den. Auch hier wer­den gewiss die Gesetz­ge­ber gegen­über der KI aktiv wer­den müs­sen – mit einer Art Leis­tungs­schutz­recht für Musik und Stim­men und einer Defi­ni­ti­on von Schöpfungshöhe.

    Ande­rer­seits – ein Duett von Mari­lyn Mon­roe, lizen­ziert durch ihre Erben­ge­mein­schaft, mit Shaki­ra oder John F. Ken­ne­dy, das könn­te „inter­es­sant“ wer­den. Und gru­se­lig zugleich.

    Tik­tok: https://​www​.tik​tok​.com/​@​g​h​o​:​s​t​w​r​i​t​e​r​9​7​7​?​_​t​=​8​b​X​h​i​1​b​D​0​y​s​&​_​r=1

    You­Tube: