Notizie SMW Tecnologia
30 Maggio 2023

SoundStorm: Google presenta un terrificante strumento di intelligenza artificiale in grado di replicare la voce in tempo reale

In Breve

Google ha introdotto SoundStorm, un modello all'avanguardia per la generazione audio efficiente e non autoregressiva.

Impiega l'attenzione bidirezionale e la decodifica parallela basata sulla fiducia per generare audio di alta qualità riducendo significativamente il tempo di generazione.

Ha anche la capacità di sintetizzare dialoghi naturali.

Google ha introdotto la sua ultima svolta nella tecnologia dell'intelligenza artificiale con Tempesta sonora, un modello all'avanguardia per la generazione audio efficiente e non autoregressiva. Con la capacità di sintetizzare i dialoghi con voci diverse, SoundStorm apre nuove possibilità per applicazioni come la generazione di contenuti audio da testi scritti e la creazione di podcast realistici.

SoundStorm: Google presenta un terrificante strumento di intelligenza artificiale in grado di replicare la voce in tempo reale
@Midjourney

A differenza del suo predecessore AudioLM, SoundStorm utilizza una nuova architettura che genera audio in blocchi di 30 secondi, migliorando l'efficienza. Utilizzando l'attenzione bidirezionale e la decodifica parallela basata sulla fiducia, il modello produce audio di alta qualità riducendo significativamente i tempi di generazione. Sull'hardware TPU-v4 di Google, SoundStorm può generare 30 secondi di audio in soli 0.5 secondi, segnando un sostanziale miglioramento della velocità.

La formazione di SoundStorm è stata condotta utilizzando un enorme set di dati di 100,000 ore di dialogo, garantendo una solida comprensione dei modelli linguistici parlati. Il modello raggiunge un'impressionante coerenza nelle condizioni vocali e acustiche mantenendo la qualità audio raggiunta da AudioLM. Questa svolta rende SoundStorm due ordini di grandezza più veloce del suo predecessore, dimostrando il suo potenziale per la generazione audio scalabile.

Una delle funzionalità chiave di SoundStorm è la sua capacità di sintetizzare dialoghi naturali sfruttando la fase di modellazione da testo a semantica di SPEAR-TTS. Fornendo trascrizioni con turni dell'altoparlante e brevi istruzioni vocali, gli utenti possono controllare il contenuto parlato e le voci degli oratori. Durante i test, SoundStorm ha dimostrato la capacità di sintetizzare segmenti di dialogo di 30 secondi in soli 2 secondi su un singolo TPU-v4, dimostrando la sua efficienza e versatilità.

Promemoria vocale

Dialogo sintetizzato

Rispetto alle linee di base standard, l'audio generato da SoundStorm è di qualità equivalente a AudioLM e dimostra una coerenza e un'integrità acustica superiori. In particolare, quando viene richiesto di fornire un campione di discorso, il modello preserva la voce di chi parla con incredibile precisione, aumentando notevolmente la sua capacità di generare dialoghi realistici.

Sebbene le capacità di SoundStorm siano eccezionali, è fondamentale riconoscere e risolvere i problemi possibili questioni etiche. I dati di addestramento per l'algoritmo possono introdurre distorsioni relative agli accenti e alle caratteristiche vocali. Si potrebbe abusare della capacità di imitare le voci imitazione o per eludere l'identificazione biometrica. Google sottolinea l'importanza di mettere in atto protezioni per prevenire tali abusi e garantendone la rilevabilità dell'audio creato attraverso classificatori dedicati.

I principi etici di intelligenza artificiale di Google guidano i suoi continui sforzi per affrontare potenziali pericoli e limitazioni. L'organizzazione si rende conto della necessità di effettuare uno studio approfondito dei dati di addestramento e delle implicazioni per gli output del modello. Hanno anche in programma di studiare ulteriori approcci, come la filigrana audio, per rilevare il parlato sintetizzato per fare un uso etico di questa tecnologia.

  • SoundStorm è un grande passo avanti nella produzione audio basata sull'intelligenza artificiale, fornendo rappresentazioni audio derivate da codec audio neurali efficienti e di alta qualità. Google prevede che le minori esigenze di memoria ed elaborazione di SoundStorm renderanno la ricerca sulla generazione audio più accessibile a una comunità più ampia. Google continua a impegnarsi a preservare le pratiche di intelligenza artificiale responsabili e a garantire l'uso sicuro e responsabile di SoundStorm e scoperte comparabili nel campo man mano che la tecnologia si evolve.
  • VALLE, l'ultimo modello di sintesi vocale (TTS) di Microsoft, rappresenta un enorme passo avanti nel miglioramento del modo in cui questi sistemi generano la voce. VALL-E è un Modello TTS basato su trasformatori in grado di generare parlato in qualsiasi voce dopo aver ascoltato solo un campione di tre secondi di quella voce. Questo è un grande progresso rispetto ai modelli precedenti, che richiedevano un periodo di formazione significativamente più lungo per sviluppare una nuova voce.

Per saperne di più sull'intelligenza artificiale:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Hot Stories
Iscriviti alla nostra newsletter.
Notizie

Arriva il giorno della sentenza: il destino di CZ è in bilico mentre la Corte degli Stati Uniti considera l'appello del Dipartimento di Giustizia

Changpeng Zhao è pronto ad affrontare oggi la sentenza in un tribunale americano a Seattle.

Per saperne di più

I fondatori di Samourai Wallet sono accusati di aver facilitato 2 miliardi di dollari in affari nel Darknet

L'apprensione dei fondatori di Samourai Wallet rappresenta una notevole battuta d'arresto per il settore, sottolineando la persistente ...

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
Pantera Capital investe in TON Blockchain ed esprime fiducia nel potenziale di Telegram di ampliare l'accessibilità alle criptovalute
Affari Notizie Tecnologia
Pantera Capital investe in TON Blockchain ed esprime fiducia nel potenziale di Telegram di ampliare l'accessibilità alle criptovalute
2 Maggio 2024
Mitosis raccoglie 7 milioni di dollari in finanziamenti da Amber Group e Foresight Ventures per portare avanti il ​​suo protocollo di liquidità modulare
Affari Notizie Tecnologia
Mitosis raccoglie 7 milioni di dollari in finanziamenti da Amber Group e Foresight Ventures per portare avanti il ​​suo protocollo di liquidità modulare
2 Maggio 2024
Galxe collabora con Jambo per espandere l'accessibilità globale a Web3
Affari Notizie Tecnologia
Galxe collabora con Jambo per espandere l'accessibilità globale a Web3
2 Maggio 2024
Med-Gemini di Google è pronto a dare un vantaggio GPT-4 Con le sue prestazioni superiori nel settore sanitario
AI Wiki Notizie Software Tecnologia
Med-Gemini di Google è pronto a dare un vantaggio GPT-4 Con le sue prestazioni superiori nel settore sanitario
2 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.