Nachrichtenbericht SMW Technologie
30. Mai 2023

SoundStorm: Google stellt erschreckendes KI-Tool vor, das Sprachreplikation in Echtzeit ermöglicht

In Kürze

Google hat SoundStorm eingeführt, ein hochmodernes Modell zur effizienten und nicht autoregressiven Audioerzeugung.

Es nutzt bidirektionale Aufmerksamkeit und konfidenzbasierte parallele Dekodierung, um qualitativ hochwertiges Audio zu erzeugen und gleichzeitig die Generierungszeit erheblich zu verkürzen.

Es verfügt außerdem über die Fähigkeit, natürliche Dialoge zu synthetisieren.

Google hat seinen neuesten Durchbruch in der Technologie der künstlichen Intelligenz vorgestellt KlangSturm, ein hochmodernes Modell für die effiziente und nicht-autoregressive Audioerzeugung. Mit der Fähigkeit dazu Dialoge synthetisieren Mit verschiedenen Stimmen eröffnet SoundStorm neue Möglichkeiten für Anwendungen wie die Generierung von Audioinhalten aus geschriebenem Text und die Erstellung realistischer Podcasts.

SoundStorm: Google stellt erschreckendes KI-Tool vor, das Sprachreplikation in Echtzeit ermöglicht
@Midjourney

Im Gegensatz zu seinem Vorgänger AudioLMSoundStorm verwendet eine neuartige Architektur, die Audio in Blöcken von 30 Sekunden generiert und so die Effizienz steigert. Durch die Nutzung bidirektionaler Aufmerksamkeit und konfidenzbasierter paralleler Dekodierung erzeugt das Modell hochwertige Audiodaten und verkürzt gleichzeitig die Generierungszeit erheblich. Auf der TPU-v4-Hardware von Google kann SoundStorm 30 Sekunden Audio in nur 0.5 Sekunden erzeugen, was eine erhebliche Geschwindigkeitsverbesserung darstellt.

Das Training von SoundStorm wurde anhand eines riesigen Datensatzes von 100,000 Stunden Dialog durchgeführt, um ein solides Verständnis gesprochener Sprachmuster sicherzustellen. Das Modell erreicht eine beeindruckende Konsistenz der Sprach- und Akustikbedingungen und behält gleichzeitig die von AudioLM erreichte Audioqualität bei. Dieser Durchbruch macht SoundStorm zwei Größenordnungen schneller als sein Vorgänger und demonstriert sein Potenzial für die skalierbare Audioerzeugung.

Eine der Schlüsselfunktionen von SoundStorm ist die Fähigkeit, natürliche Dialoge zu synthetisieren, indem die Text-zu-Semantik-Modellierungsphase von SPEAR-TTS genutzt wird. Durch die Bereitstellung von Transkripten mit Sprecherwechseln und kurzen Sprachansagen können Benutzer den gesprochenen Inhalt und die Stimmen der Sprecher steuern. Während des Tests demonstrierte SoundStorm die Fähigkeit, 30-Sekunden-Dialogsegmente in nur 2 Sekunden auf einem einzigen TPU-v4 zu synthetisieren, was seine Effizienz und Vielseitigkeit unter Beweis stellte.

Sprachansage

Synthetisierter Dialog

Im Vergleich zu Standard-Basislinien ist der von SoundStorm erzeugte Ton von gleichwertiger Qualität wie AudioLM und weist eine überlegene Konsistenz und akustische Integrität auf. Insbesondere bei der Aufforderung, eine Sprachprobe abzugeben, behält das Modell die Stimme des Sprechers mit erstaunlicher Genauigkeit bei und steigert so seine Fähigkeit, lebensechte Dialoge zu erzeugen, erheblich.

Obwohl die Fähigkeiten von SoundStorm hervorragend sind, ist es wichtig, mögliche Probleme zu erkennen und zu lösen ethische Bedenken. Die Trainingsdaten für den Algorithmus können zu Verzerrungen in Bezug auf Akzente und Stimmmerkmale führen. Die Fähigkeit, Stimmen zu imitieren, könnte missbraucht werden Identitätswechsel oder um die biometrische Identifizierung zu umgehen. Google betont, wie wichtig es ist, Schutzmaßnahmen zu ergreifen, um solchen Missbrauch zu verhindern Sicherstellung der Erkennbarkeit der erstellten Audiodaten durch spezielle Klassifikatoren.

Die ethischen KI-Grundsätze von Google sind die Grundlage für die kontinuierlichen Bemühungen von Google, potenzielle Gefahren und Einschränkungen anzugehen. Die Organisation erkennt die Notwendigkeit einer gründlichen Untersuchung der Trainingsdaten und der Auswirkungen auf die Modellergebnisse. Sie planen außerdem, zusätzliche Ansätze wie Audio-Wasserzeichen zur Erkennung synthetisierter Sprache zu untersuchen, um diese Technologie ethisch zu nutzen.

  • SoundStorm ist ein großer Fortschritt in der KI-gestützten Audioproduktion und bietet hochwertige und effiziente, vom neuronalen Audio-Codec abgeleitete Audiodarstellungen. Google geht davon aus, dass der geringere Speicher- und Verarbeitungsbedarf von SoundStorm die Forschung zur Audioerzeugung einer breiteren Community zugänglicher machen wird. Google setzt sich weiterhin dafür ein, verantwortungsvolle KI-Praktiken aufrechtzuerhalten und die sichere und verantwortungsvolle Nutzung von SoundStorm und vergleichbaren Durchbrüchen auf diesem Gebiet im Zuge der technologischen Weiterentwicklung sicherzustellen.
  • SENKE, das neueste TTS-Modell (Text-to-Speech) von Microsoft, ist ein großer Fortschritt bei der Verbesserung der Art und Weise, wie diese Systeme Sprache erzeugen. VALL-E ist ein TTS-Modell basiert auf Transformatoren, die Sprache in jeder Stimme erzeugen können, nachdem sie nur ein dreisekündiges Sample dieser Stimme gehört hat. Dies ist ein großer Fortschritt gegenüber früheren Modellen, die eine deutlich längere Einarbeitungszeit erforderten, um eine neue Stimme zu entwickeln.

Lesen Sie mehr über KI:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Weitere Artikel
Damir Jalalow
Damir Jalalow

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Hot Stories
Abonnieren Sie unseren Newsletter.
Aktuelles

Der Tag der Verurteilung steht vor der Tür: Das Schicksal von CZ bleibt ungewiss, während das US-Gericht den Plädoyer des DOJ prüft

Changpeng Zhao steht heute vor einer Verurteilung vor einem US-Gericht in Seattle.

Weitere Informationen

Den Gründern von Samourai Wallet wird vorgeworfen, Darknet-Deals im Wert von 2 Milliarden US-Dollar ermöglicht zu haben

Die Besorgnis der Samourai Wallet-Gründer stellt einen bemerkenswerten Rückschlag für die Branche dar und unterstreicht die anhaltende ...

Weitere Informationen
Treten Sie unserer innovativen Tech-Community bei
Weiterlesen
Lesen Sie weiter
Pantera Capital investiert in die TON-Blockchain und zeigt sich zuversichtlich, dass Telegram das Potenzial hat, die Zugänglichkeit von Kryptowährungen zu erweitern
Geschäft Nachrichtenbericht Technologie
Pantera Capital investiert in die TON-Blockchain und zeigt sich zuversichtlich, dass Telegram das Potenzial hat, die Zugänglichkeit von Kryptowährungen zu erweitern
2. Mai 2024
Mitosis erhält 7 Millionen US-Dollar an Finanzmitteln von der Amber Group und Foresight Ventures, um sein modulares Liquiditätsprotokoll voranzutreiben
Geschäft Nachrichtenbericht Technologie
Mitosis erhält 7 Millionen US-Dollar an Finanzmitteln von der Amber Group und Foresight Ventures, um sein modulares Liquiditätsprotokoll voranzutreiben
2. Mai 2024
Galxe arbeitet mit Jambo zusammen, um die globale Zugänglichkeit zu erweitern Web3
Geschäft Nachrichtenbericht Technologie
Galxe arbeitet mit Jambo zusammen, um die globale Zugänglichkeit zu erweitern Web3
2. Mai 2024
Googles Med-Gemini ist bereit, einen Vorsprung zu verschaffen GPT-4 Mit seiner überlegenen Leistung im Gesundheitswesen
AI Wiki Aktuelles Software Technologie
Googles Med-Gemini ist bereit, einen Vorsprung zu verschaffen GPT-4 Mit seiner überlegenen Leistung im Gesundheitswesen
2. Mai 2024