Notizie Tecnologia
26 Giugno 2023

Google presenta AudioPaLM, un potente modello di linguaggio AI per la generazione vocale

In Breve

AudioPaLM è un potente modello linguistico sviluppato da Google che combina modelli basati su testo e basati sulla voce per un'elaborazione vocale e testuale senza soluzione di continuità.

Conserva le informazioni paralinguistiche e supera i sistemi esistenti nelle attività di traduzione vocale.

AudioPaLM può tradurre lingue accentate ed eseguire trasferimenti vocali per la traduzione vocale.

Google ha svelato un modello linguistico chiamato AudioPaLM, che combina modelli linguistici basati su testo e vocali per elaborare e generare parlato e testo senza soluzione di continuità. Unendo le capacità di PaLM-2 ed AudioLM, AudioPaLM offre un'architettura multimodale unificata che apre un'ampia gamma di applicazioni, tra cui il riconoscimento vocale e la traduzione vocale.

Google presenta AudioPaLM, un potente modello linguistico per la generazione del parlato
Crediti: Metaverse Post (mpost.io)

Una caratteristica notevole di AudioPaLM è la sua capacità di preservare le informazioni paralinguistiche come l'identità e l'intonazione del parlante, grazie all'influenza di AudioLM. Allo stesso tempo, sfrutta la conoscenza linguistica trovata nei modelli linguistici basati su testo come PaLM-2. Inizializzando AudioPaLM con i pesi di un modello di linguaggio esteso di solo testo, il modello eccelle nell'elaborazione vocale, sfruttando i numerosi dati di addestramento del testo utilizzati nel pre-addestramento.

Le notevoli capacità di AudioPaLM sono state dimostrate attraverso vari esperimenti. Ha superato i sistemi esistenti nelle attività di traduzione vocale e mostra la capacità di eseguire zero-shot traduzione vocale in testo per le lingue non incontrate durante la formazione.

Inoltre, AudioPaLM presenta caratteristiche di modelli linguistici audio trasferendo le voci tra le lingue in base a brevi suggerimenti vocali.

Google ha fatto esempi delle capacità di AudioPaLM disponibile per l'esplorazione. La capacità del modello di tradurre lingue con accenti distinti, come l'italiano e il tedesco, ha incuriosito sia i ricercatori che gli utenti. Inoltre, la sua competenza nell'eseguire trasferimenti vocali per la traduzione vocale lo distingue dalle linee di base esistenti, come confermato sia dalle metriche automatiche che dai valutatori umani.

Il modello è molto bravo a tradurre una lingua dall'audio all'audio in un'altra lingua, preservando la voce e le emozioni di una persona. È interessante notare che quando traduce alcune lingue come l'italiano e il tedesco, il modello ha un accento notevole e quando ne traduce altre, ad esempio il francese, parla con un perfetto accento americano.

Il modello AudioPaLM con esempi di traduzione vocale e riconoscimento vocale automatico.

Per saperne di più sull'intelligenza artificiale:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Cresce l’appetito istituzionale verso gli ETF Bitcoin in un contesto di volatilità

Le informazioni fornite tramite la documentazione 13F rivelano importanti investitori istituzionali che si dilettano negli ETF Bitcoin, sottolineando una crescente accettazione di...

Per saperne di più

Arriva il giorno della sentenza: il destino di CZ è in bilico mentre la Corte degli Stati Uniti considera l'appello del Dipartimento di Giustizia

Changpeng Zhao è pronto ad affrontare oggi la sentenza in un tribunale americano a Seattle.

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
MPost Si unisce ai leader del settore nella campagna "Bitcoin merita un emoji", supportando l'integrazione dei simboli Bitcoin su ogni tastiera virtuale
Stile di vita Notizie Tecnologia
MPost Si unisce ai leader del settore nella campagna "Bitcoin merita un emoji", supportando l'integrazione dei simboli Bitcoin su ogni tastiera virtuale
10 Maggio 2024
L'exchange di criptovalute OKX elenca Notcoin, pronto a introdurre il trading spot con la coppia NOT-USDT il 16 maggio
Mercati Notizie Tecnologia
L'exchange di criptovalute OKX elenca Notcoin, pronto a introdurre il trading spot con la coppia NOT-USDT il 16 maggio  
10 Maggio 2024
Blast lancia il terzo evento di distribuzione Blast Gold, assegna 15 milioni di punti alle DApp
Mercati Notizie Tecnologia
Blast lancia il terzo evento di distribuzione Blast Gold, assegna 15 milioni di punti alle DApp
10 Maggio 2024
Espresso Systems collabora con Polygon Labs per sviluppare AggLayer per migliorare l'interoperabilità dei rollup
Affari Notizie Tecnologia
Espresso Systems collabora con Polygon Labs per sviluppare AggLayer per migliorare l'interoperabilità dei rollup
9 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.