MusicLM: ein neues Text-zu-Musik- und Bild-zu-Musik-KI-Modell von Google
In Kürze
Google stellt MusicLM vor, ein Modell zur Generierung von High-Fidelity-Musik aus Textbeschreibungen.
MusicLM kann sowohl auf Text als auch auf eine Melodie konditioniert werden, indem es gepfiffene und gesummte Melodien gemäß dem in einer Textbeschriftung beschriebenen Stil umwandeln kann.
Das Modell kann Musik erzeugen in einer Vielzahl von Genres, darunter Klassik, Jazz und Rock.
Google stellt MusicLM vor, ein Modell zum Generieren von High-Fidelity-Musik aus Textbeschreibungen wie „eine beruhigende Geigenmelodie, unterstützt von einem verzerrten Gitarrenriff“. MusicLM wandelt den Prozess der bedingten Musikerzeugung in eine hierarchische Sequenz-zu-Sequenz-Modellierungsaufgabe um und erzeugt Musik bei 24 kHz, die über mehrere Minuten konstant bleibt.
Google-Experimente zeigen, dass MusicLM frühere Systeme übertrifft, sowohl in der Audioqualität als auch in der Einhaltung der Textbeschreibung. Darüber hinaus zeigt es, dass MusicLM sowohl auf Text als auch auf eine Melodie konditioniert werden kann, indem es gepfiffene und gesummte Melodien gemäß dem in einer Textunterschrift beschriebenen Stil umwandeln kann. Um die zukünftige Forschung zu unterstützen, veröffentlichen wir MusicCaps, einen Datensatz, der aus 5.5 Musiktextpaaren mit Rich-Text-Beschreibungen besteht, die von menschlichen Experten bereitgestellt werden.
In Verbindung stehender Artikel: Text-to-3D: Google hat ein neuronales Netzwerk entwickelt, das aus Textbeschreibungen 3D-Modelle generiert |
Das MusicLM-Modell wurde an einem großen Korpus von Musikpartituren trainiert, wodurch die KI die Struktur von Musik erlernen konnte. Das Modell kann Musik erzeugen in einer Vielzahl von Genres, darunter Klassik, Jazz und Rock. Darüber hinaus kann das KI-Modell neue, originelle Kompositionen erstellen.
Das MusicLM-Modell ist eine wichtige Entwicklung im Bereich der KI-generierten Musik. Das Modell stellt einen deutlichen Fortschritt gegenüber früheren Modellen dar, die auf kürzere Musikstücke beschränkt waren oder nur einfache Melodien erzeugen konnten. Das neue Modell eröffnet die Möglichkeit, mithilfe von KI lange, komplexe Musikstücke zu generieren, die in Filmen, Videospielen oder anderen Medien verwendet werden könnten.
Das neue KI-Modell kann lange Musik erzeugen Generationen von bis zu fünf Minuten.
In Verbindung stehender Artikel: Stable Diffusion kann neue Musik erstellen, indem er Spektrogramme basierend auf Text erstellt |
Das KI-Modell kann Musik mit Untertiteln aus Spielen und Filmen erstellen.
Darüber hinaus kann das KI-Modell Musik mit Bildern als Eingabe erzeugen.
Lesen Sie mehr über KI in der Musikindustrie:
Haftungsausschluss
Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.
Über den Autor
Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.
Weitere ArtikelDamir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.