SoundStorm: Google stellt erschreckendes KI-Tool vor, das Sprachreplikation in Echtzeit ermöglicht
In Kürze
Google hat SoundStorm eingeführt, ein hochmodernes Modell zur effizienten und nicht autoregressiven Audioerzeugung.
Es nutzt bidirektionale Aufmerksamkeit und konfidenzbasierte parallele Dekodierung, um qualitativ hochwertiges Audio zu erzeugen und gleichzeitig die Generierungszeit erheblich zu verkürzen.
Es verfügt außerdem über die Fähigkeit, natürliche Dialoge zu synthetisieren.
Google hat seinen neuesten Durchbruch in der Technologie der künstlichen Intelligenz vorgestellt KlangSturm, ein hochmodernes Modell für die effiziente und nicht-autoregressive Audioerzeugung. Mit der Fähigkeit dazu Dialoge synthetisieren Mit verschiedenen Stimmen eröffnet SoundStorm neue Möglichkeiten für Anwendungen wie die Generierung von Audioinhalten aus geschriebenem Text und die Erstellung realistischer Podcasts.
Im Gegensatz zu seinem Vorgänger AudioLMSoundStorm verwendet eine neuartige Architektur, die Audio in Blöcken von 30 Sekunden generiert und so die Effizienz steigert. Durch die Nutzung bidirektionaler Aufmerksamkeit und konfidenzbasierter paralleler Dekodierung erzeugt das Modell hochwertige Audiodaten und verkürzt gleichzeitig die Generierungszeit erheblich. Auf der TPU-v4-Hardware von Google kann SoundStorm 30 Sekunden Audio in nur 0.5 Sekunden erzeugen, was eine erhebliche Geschwindigkeitsverbesserung darstellt.
Das Training von SoundStorm wurde anhand eines riesigen Datensatzes von 100,000 Stunden Dialog durchgeführt, um ein solides Verständnis gesprochener Sprachmuster sicherzustellen. Das Modell erreicht eine beeindruckende Konsistenz der Sprach- und Akustikbedingungen und behält gleichzeitig die von AudioLM erreichte Audioqualität bei. Dieser Durchbruch macht SoundStorm zwei Größenordnungen schneller als sein Vorgänger und demonstriert sein Potenzial für die skalierbare Audioerzeugung.
Eine der Schlüsselfunktionen von SoundStorm ist die Fähigkeit, natürliche Dialoge zu synthetisieren, indem die Text-zu-Semantik-Modellierungsphase von SPEAR-TTS genutzt wird. Durch die Bereitstellung von Transkripten mit Sprecherwechseln und kurzen Sprachansagen können Benutzer den gesprochenen Inhalt und die Stimmen der Sprecher steuern. Während des Tests demonstrierte SoundStorm die Fähigkeit, 30-Sekunden-Dialogsegmente in nur 2 Sekunden auf einem einzigen TPU-v4 zu synthetisieren, was seine Effizienz und Vielseitigkeit unter Beweis stellte.
Sprachansage
Synthetisierter Dialog
Im Vergleich zu Standard-Basislinien ist der von SoundStorm erzeugte Ton von gleichwertiger Qualität wie AudioLM und weist eine überlegene Konsistenz und akustische Integrität auf. Insbesondere bei der Aufforderung, eine Sprachprobe abzugeben, behält das Modell die Stimme des Sprechers mit erstaunlicher Genauigkeit bei und steigert so seine Fähigkeit, lebensechte Dialoge zu erzeugen, erheblich.
Obwohl die Fähigkeiten von SoundStorm hervorragend sind, ist es wichtig, mögliche Probleme zu erkennen und zu lösen ethische Bedenken. Die Trainingsdaten für den Algorithmus können zu Verzerrungen in Bezug auf Akzente und Stimmmerkmale führen. Die Fähigkeit, Stimmen zu imitieren, könnte missbraucht werden Identitätswechsel oder um die biometrische Identifizierung zu umgehen. Google betont, wie wichtig es ist, Schutzmaßnahmen zu ergreifen, um solchen Missbrauch zu verhindern Sicherstellung der Erkennbarkeit der erstellten Audiodaten durch spezielle Klassifikatoren.
Die ethischen KI-Grundsätze von Google sind die Grundlage für die kontinuierlichen Bemühungen von Google, potenzielle Gefahren und Einschränkungen anzugehen. Die Organisation erkennt die Notwendigkeit einer gründlichen Untersuchung der Trainingsdaten und der Auswirkungen auf die Modellergebnisse. Sie planen außerdem, zusätzliche Ansätze wie Audio-Wasserzeichen zur Erkennung synthetisierter Sprache zu untersuchen, um diese Technologie ethisch zu nutzen.
- SoundStorm ist ein großer Fortschritt in der KI-gestützten Audioproduktion und bietet hochwertige und effiziente, vom neuronalen Audio-Codec abgeleitete Audiodarstellungen. Google geht davon aus, dass der geringere Speicher- und Verarbeitungsbedarf von SoundStorm die Forschung zur Audioerzeugung einer breiteren Community zugänglicher machen wird. Google setzt sich weiterhin dafür ein, verantwortungsvolle KI-Praktiken aufrechtzuerhalten und die sichere und verantwortungsvolle Nutzung von SoundStorm und vergleichbaren Durchbrüchen auf diesem Gebiet im Zuge der technologischen Weiterentwicklung sicherzustellen.
- SENKE, das neueste TTS-Modell (Text-to-Speech) von Microsoft, ist ein großer Fortschritt bei der Verbesserung der Art und Weise, wie diese Systeme Sprache erzeugen. VALL-E ist ein TTS-Modell basiert auf Transformatoren, die Sprache in jeder Stimme erzeugen können, nachdem sie nur ein dreisekündiges Sample dieser Stimme gehört hat. Dies ist ein großer Fortschritt gegenüber früheren Modellen, die eine deutlich längere Einarbeitungszeit erforderten, um eine neue Stimme zu entwickeln.
Lesen Sie mehr über KI:
Haftungsausschluss
Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.
Über den Autor
Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.
Weitere ArtikelDamir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.