Seit diesem Mittwoch enthält Gemini ein neues Tool: Music. Ich konnte ihn bereits vor dem Start testen. Neben Textantworten, Bildern und Videos liefert die KI nun Songclips. Nötig ist dafür eine textliche Beschreibung des gewünschten Titels.
Das ist gar nicht so einfach, wenn man nicht gerade Herbert Grönemeyer oder Hans Zimmer heißt. Deswegen hat Google 16 Beispieltracks in seiner Musikrubrik voreingestellt. Da finden sich ein 90er-Rap, Latin Pop, eine Folkballade, Reggaeton und Rhythm-and-Blues-Lovesongs. Etwas abgehobener sind ein Track Kinoeffekt, Waldbad und Geburtstags-Roast. Ein Track „Schlechte Musik“ trifft die Erwartungen mit besonders schrägen Tönen. Ich habe die KI gebeten, eine vorgefundene Folkballade auf Deutsch neu zu machen.
Auch die übrigen Titel entfalten oft eine gewisse Qualität. Hier einige Prompts und daraus entstandene Tracks:
Erstelle einen entspannten, nostalgischen Lo-Fi-Track über einen regnerischen Sonntagnachmittag in Berlin. Die Stimmung soll gemütlich und ein bisschen melancholisch sein, mit sanftem Piano und einem langsamen Tempo. Generiere dazu passende Lyrics über das Trinken von heißem Tee und das Beobachten der Regentropfen am Fenster.
Schreibe einen energiegeladenen, lustigen Punk-Rock-Song über meinen Mitbewohner, der immer vergisst, den Abwasch zu machen. Nutze einen schnellen Rhythmus und raue Vocals. Der Refrain soll humorvoll betonen, dass die Küche jetzt ein biologisches Experimentierfeld ist.
Das funktioniert auch mit Fotos. Gemini lässt sich davon inspirieren.

Nutze dieses Foto als Inspiration und erstelle einen passenden 30-sekündigen Soundtrack dazu. Erstelle eine cineastische orchestrale Melodie, die die Weite des Bildes einfängt.
Begrenzt sind die Clips auf 30 Sekunden. Und sie enthalten keine Inhalte im Stil bestimmter Künstler oder Bands. „Mach einen Track im Stil der Beatles“, mag die KI nicht und verweist auf urheberrechtliche Gründe. Stattdessen wirft die Maschine einen Track aus, der die Stimmung des 60er-Jahre-Psychedelic-Pop einfangen soll. Es klingt nur sehr entfernt nach den Beatles.
Zum Test habe ich einen Artikel von mir über die KI-Generierung eines Thrillers bei Gemini Music hochgeladen und den Dienst gebeten, daraus ein Musikstück zu machen. Die KI vertonte den Buchanfang.
Intern nennt Google das generative Musikmodell Lyria 3. Es erstellt die Songtexte und orientiert bei Stil, Gesang und Tempo an den Vorgaben aus dem Prompt. „Das Ziel dieser Tracks ist nicht die Erschaffung eines musikalischen Meisterwerks, sondern vielmehr eine unterhaltsame, einzigartige Art, sich selbst auszudrücken“, teilte das Unternehmen mit. Es ließ offen, ob künftig auch längere Tracks möglich werden. Lyria wird auch bei Youtube eingebaut und soll dort die „Shorts“ verbessern, das Genre der Kurvideos in dem Netzwerk.
Hinterlegt werden dabei in jedem Track nicht wahrnehmbare Wasserzeichen zur Identifizierung von KI-generierten Inhalten. Man habe bei der Entwicklung von Lyria 3 streng auf Urheberrechte und Partnervereinbarungen geachtet, sagt Google. „Wenn Sie einen spezifischen Künstler nennen, nutzt Gemini dies als breite kreative Inspiration für Stil oder Stimmung.“ Neben Englisch und Deutsch kann Lyria 3 Spanisch, Französisch, Hindi, Japanisch, Koreanisch und Portugiesisch.

