15. Februar 2023

SingSong: KI-Forscher von Google finden einen Weg, Musik zu erzeugen, die Eingangsstimmen begleitet

Veröffentlicht: 15. Februar 2023 um 4:00 Uhr. Aktualisiert: 15. Februar 2023 um 2:50 Uhr

In Kürze

Das neue System namens SingSong verwendet eine tiefe Lernmodell Musik zu erzeugen, die besser zum Gesang passt als bestehende Systeme.

Die Forscher sagen, dass das System verwendet werden könnte, um Karaoke-Tracks für professionelle Sänger zu erstellen oder Amateursängern zu helfen, eine Begleitung zu finden, die zu ihrer Stimme passt.

Forscher von Google haben einen Weg gefunden, mithilfe künstlicher Intelligenz Musik zu erzeugen, die mit Gesang kompatibel ist. Das neue System namens SingSong verwendet ein Deep-Learning-Modell, um eine Begleitung zu generieren, die mehr mit dem Gesang synchronisiert ist als andere bestehende Systeme. Die Forscher sagen, dass das System verwendet werden könnte, um Karaoke-Tracks für professionelle Sänger zu erstellen oder Amateursängern zu helfen, eine Begleitung zu finden, die besser zu ihrer Stimme passt.

Karaoke in umgekehrter Richtung: KI-Forscher finden einen Weg, Musik zum Singen zu erzeugen — Frühere Systeme zum Erzeugen einer Begleitung haben sich auf Algorithmen verlassen, die versuchen, das Timing und die Tonhöhe des Gesangs anzupassen.

Singsang ist ein von Google entwickeltes System, das Instrumentalmusik zur Begleitung von Eingangsgesang erzeugt. Es kann sowohl Musikern als auch Nicht-Musikern einen einfachen neuen Ansatz bieten, Musik zu machen, die ihre eigenen Stimmen enthält. Um dies zu erreichen, bauen die Entwickler auf den jüngsten Fortschritten in der Trennung von Musikquellen und der Audioproduktion auf. Entwickler verwenden speziell eine hochmoderne Quellentrennungsmethode, um abgestimmte Vokal- und Instrumentalquellenpaare aus einem riesigen Korpus von Musikaufnahmen zu erstellen. Dann modifizieren die Entwickler AudioLM, eine hochmoderne Methode zur bedingungslosen Audioproduktion, so dass sie an quellengetrennten (vokalen, instrumentalen) Paaren für bedingte „Audio-zu-Audio“-Generierungsaufgaben trainiert werden kann.

Empfohlener Beitrag: Top 5 KI-Musik- und Audiogeneratoren zum Erstellen lizenzfreier Titel

KI-Forscher untersuchen verschiedene Merkmale von Stimmeingaben, von denen die beste die quantitative Leistung bei isoliertem Gesang um 53 % im Vergleich zur Standard-AudioLM-Funktion verbessert, um die Verallgemeinerung des Systems aus quellengetrennten Trainingsdaten zu verbessern (wobei der Gesang Artefakte der instrumental) bis hin zu isolierten Vocals, die Entwickler von Benutzern erwarten könnten. Die Zuhörer zeigten in einem paarweisen Vergleich mit denselben Spracheingaben eine deutliche Präferenz für Instrumentalstücke, die von SingSong produziert wurden, gegenüber solchen mit einer starken Abrufgrundlinie.

Das neue System hingegen verwendet a Deep-Learning-Modell das anhand eines großen Musikdatensatzes trainiert wurde. Dadurch kann das System eine Begleitung erzeugen, die mit der Stimme und dem Timing des Sängers synchronisiert ist.

Für die Studie werden den Zuhörern zwei 10-sekündige Gesangs-Instrumental-Mashups zur Verfügung gestellt, in denen die Stimmen (entnommen aus dem MUSDB18-Test) gleich sind, während sich die Instrumentals unterscheiden und aus verschiedenen Quellen stammen (Ground Truth, Google-Modelleoder Grundlinien). Die Frage fordert die Zuhörer auf, auszuwählen, bei welcher der beiden Kombinationen ihrer Meinung nach die Instrumentalbegleitung musikalisch besser zum Gesang passt.

Empfohlener Beitrag: Top 7 KI-Sprachgeneratoren und Stimmenklonen für Text-to-Speech

Neue Beispiele von SingSong

Durch die Verwendung einer Reihe tiefer neuronaler Netze und generative Modellekönnen Entwickler für längere Segmente harmonische Begleitungen ohne Latenz erzeugen.

In den vorangegangenen Beispielen wurden die professionellen Stimmen des MUSDB18-Datensatzes verwendet. Wir sind auch fasziniert von der Fähigkeit von SingSong, jeden zu unterstützen und zu befähigen, mit seiner Stimme Musik zu machen. Hier untersuchen wir dies anhand von Stimmproben aus dem Vocadito-Datensatz, der Aufnahmen von Amateursängern enthält, die mit Unterhaltungselektronik gemacht wurden.

Das System befindet sich noch in einem frühen Entwicklungsstadium. Während die Forscher sagen, dass es verbessert werden muss, bevor es kommerziell genutzt werden kann, glauben sie, dass es das Potenzial hat, die Karaoke-Industrie zu revolutionieren und Amateursängern dabei zu helfen, eine Begleitung zu finden, die für sie gut funktioniert.

Lesen Sie weitere verwandte Artikel:

Stichworte:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.

Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten

by Alisa Davidson

03. Mai 2024

Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht

by Alisa Davidson

03. Mai 2024

Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus

by Alisa Davidson

03. Mai 2024

CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen

by Alisa Davidson

03. Mai 2024

Aktuelles

Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten

by Alisa Davidson

03. Mai 2024

Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht

by Alisa Davidson

03. Mai 2024

Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus

by Alisa Davidson

03. Mai 2024

CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen

by Alisa Davidson

03. Mai 2024

Angesichts der Volatilität wächst der institutionelle Appetit auf Bitcoin-ETFs

Offenlegungen in 13F-Anmeldungen zeigen, dass namhafte institutionelle Anleger sich mit Bitcoin-ETFs beschäftigen, was die wachsende Akzeptanz von ... unterstreicht.

Weitere Informationen