21. Oktober 2022

Google AI hat den allerersten Text-zu-Musik-Generator AudioLM angekündigt

Veröffentlicht: 21. Oktober 2022 um 12:09 Uhr. Aktualisiert: 21. Oktober 2022 um 12:10 Uhr

In Kürze

AudioLM kann Musik produzieren, indem man einfach Klänge hört

Mubert AI, um menschliche Sprache und Klaviermusik fortzusetzen

Mit der GPT-3 und anderen hat die Idee der generativen KI gute Chancen, voranzukommen. Wir haben auch die Konzepte des Inpainting und Outpainting entdeckt; KI vervollständigt die Bilder gekonnt und behält dabei das Thema und den Stil bei. Was ist mit Musik?

Und noch einmal! Da all dies auf bedeutungserhaltenden KI-Sprachmodellen basiert, war es nur eine Frage der Zeit, bis diese Technologie auf Musik angewendet würde. Und jetzt ist es soweit.

Google AI kündigte den allerersten Text-zu-Musik-Generator AudioLM an

Laut neueren Google-Forschungen kann einem neuen Framework für die Audioproduktion namens AudioLM beigebracht werden, realistische Sprache und Klaviermusik einfach durch das Hören von Klängen zu erzeugen. Aufgrund seiner langfristigen Konsistenz und hervorragenden Wiedergabetreue übertrifft AudioLM frühere Systeme und erweitert die Audioerzeugung mit Anwendungen in der Sprachsynthese und computergestützten Musik.

Wir haben ein System entwickelt, um von AudioLM erzeugte synthetische Klänge zu erkennen, indem wir dieselben KI-Konzepte verwenden, die der Erstellung unserer vorherigen Modelle zugrunde lagen.

AudioLM von Google AI kann eine akustische Passage verlängern, während die „Absicht“ beibehalten wird. Bisher wurde es auf der Grundlage einer begrenzten Stichprobe von Eingabedaten darauf trainiert, menschliche Sprache und Klaviermusik fortzusetzen. Überprüfen Sie das Beispiel unten.

Die Kriterien für Sprache waren einfach: Die Zuhörer wurden gebeten, zu beurteilen, ob die Fortsetzung wie menschliche Sprache klang. Bei der Musik wurde festgestellt, dass die „Fortsetzung“ der Sektion für den Input qualitativ weit überlegen ist als alle aktuellen Musikgeneratoren von Grund auf neu, wie z JukeBox. Mit einem Vorschlag am Eingang setzt die KI die Musik deutlich besser fort.

Menschliche Bewerter hörten sich Audiobeispiele an, um die Ergebnisse zu bestätigen. Sie stellten fest, ob sie eine echte Fortsetzung einer aufgezeichneten menschlichen Stimme oder eine von AudioLM erzeugte künstliche Stimme hörten. Ihre Daten weisen auf eine Erfolgsquote von 51.2 % hin. Infolgedessen wird es für den durchschnittlichen Zuhörer schwierig sein, zwischen der von AudioLM erzeugten Sprache und der tatsächlichen menschlichen Sprache zu unterscheiden.

Verändert die Text-to-Music-Technologie das Musikgeschäft?

Ein Text-zu-Musik-Generator basierend auf dem Mubert-API wurde kürzlich von einem anderen KI-Modell, Mubert, angekündigt. Mubert erstellt für jede von Ihnen gesendete Anfrage einen anderen Satz von Sounds. Die Wahrscheinlichkeit einer Wiederholung ist wirklich gering. Musik entsteht, wenn eine Anfrage gestellt wird; Es wird nicht aus einer Datenbank fertiger Stücke entnommen. Wie wirklich generativ diese Musik Das ist eine häufig gestellte Frage.

Sounds werden ausgewählt, bevor sie erstellt werden. Sowohl die Eingabeaufforderung als auch die Mubert-API-Tags werden in den latenten Raumvektor eines Transformator-Neuronalnetzwerks codiert. Der nächstgelegene Tag-Vektor für jede Abfrage wird dann ausgewählt und die begleitenden Tags werden an unsere API übertragen, um Musik zu erstellen. Es wurde kein neuronales Netzwerk verwendet, um einen der Sounds zu konstruieren (separate Loops für Bass, Leads usw.); alle Sounds wurden von Musikern und Sounddesignern produziert.

Muberts nächster bedeutender Schritt besteht darin, Elemente aus der aktuellen Welt wie Fotos, Filme, Szenarien und Präsentationen zu nehmen und die Musik der Welt um Sie herum zu kreieren.

Folgendes können Sie erreichen, wenn Sie dem Musical Mubert AI rücksichtslos Texteingabeaufforderungen in den Mund legen:

Dies ist die Anfangsphase beim Aufbau eines ausgeklügelteren und präziseren Generierungsalgorithmus, aber dies wird Zeit und Geld kosten.

Die Text-zu-Musik-Technologie ist jedoch bereits verfügbar, sodass Sie Alben in großen Mengen erstellen können, indem Sie „Eingabeaufforderung“ durch „Schreibe ein zufälliges Eingabeaufforderungsskript“ ersetzen. Anscheinend werden Künstler nicht mehr benötigt.

Lesen Sie weitere verwandte Nachrichten:

Stichworte:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.

Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten

by Alisa Davidson

03. Mai 2024

Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht

by Alisa Davidson

03. Mai 2024

Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus

by Alisa Davidson

03. Mai 2024

CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen

by Alisa Davidson

03. Mai 2024

Aktuelles

Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten

by Alisa Davidson

03. Mai 2024

Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht

by Alisa Davidson

03. Mai 2024

Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus

by Alisa Davidson

03. Mai 2024

CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen

by Alisa Davidson

03. Mai 2024

Angesichts der Volatilität wächst der institutionelle Appetit auf Bitcoin-ETFs

Offenlegungen in 13F-Anmeldungen zeigen, dass namhafte institutionelle Anleger sich mit Bitcoin-ETFs beschäftigen, was die wachsende Akzeptanz von ... unterstreicht.

Weitere Informationen