Informe de notícies Tecnologia
Juny 26, 2023

Google presenta AudioPaLM, un potent model de llenguatge d'IA per a la generació de veu

En breu

AudioPaLM és un model de llenguatge potent desenvolupat per Google que combina models basats en text i basats en veu per a un processament de text i parla sense problemes.

Conserva la informació paralingüística i supera els sistemes existents en les tasques de traducció de la parla.

AudioPaLM pot traduir idiomes amb accent i realitzar transferències de veu per a la traducció de veu a veu.

Google ha presentat un model de llenguatge anomenat AudioPaLM, que combina models de llenguatge basats en text i en parla per processar i generar parla i text sense problemes. En fusionar les capacitats de PaLM-2 i AudioLM, AudioPaLM ofereix una arquitectura multimodal unificada que obre una àmplia gamma d'aplicacions, com ara el reconeixement de veu i la traducció de veu a veu.

Google presenta AudioPaLM, un model de llenguatge potent per a la generació de veu
Crèdit: Metaverse Post (mpost.io)

Una característica notable d'AudioPaLM és la seva capacitat de preservar informació paralingüística com la identitat i l'entonació del parlant, gràcies a la influència d'AudioLM. Al mateix temps, aprofita els coneixements lingüístics que es troben en models de llenguatge basats en text com el PaLM-2. Mitjançant la inicialització d'AudioPaLM amb els pesos d'un model de llenguatge gran només de text, el model sobresurt en el processament de la parla, aprofitant les extenses dades d'entrenament de text que s'utilitzen en la formació prèvia.

Les capacitats notables d'AudioPaLM s'han demostrat mitjançant diversos experiments. Ha superat els sistemes existents en tasques de traducció de veu i mostra la capacitat de realitzar zero-shot traducció de veu a text per a idiomes no trobats durant la formació.

A més, AudioPaLM mostra característiques de models de llenguatge d'àudio transferint veus entre idiomes basant-se en indicacions orals breus.

Google ha fet exemples de les capacitats d'AudioPaLM disponible per a l'exploració. La capacitat del model de traduir idiomes amb accents diferents, com l'italià i l'alemany, ha intrigat tant els investigadors com els usuaris. A més, la seva competència a l'hora de realitzar transferències de veu per a la traducció de veu a veu el diferencia de les línies de base existents, tal com confirmen tant les mètriques automàtiques com els avaluadors humans.

El model és molt bo per traduir un idioma d'àudio a àudio en un altre idioma, preservant la veu i les emocions d'una persona. Curiosament, quan tradueix alguns idiomes com l'italià i l'alemany, el model té un accent notable, i quan tradueix altres, per exemple, el francès, parla amb un perfecte accent americà.

El model AudioPaLM amb exemples de traducció de veu a veu i reconeixement automàtic de veu.

Llegeix més sobre AI:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

més articles
Damir Yalalov
Damir Yalalov

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

L'apetit institucional creix cap als ETF de Bitcoin enmig de la volatilitat

Les divulgacions a través de les presentacions 13F revelen inversors institucionals notables que s'estan incursionant en els ETF de Bitcoin, subratllant una acceptació creixent de...

saber Més

Arriba el dia de la sentència: el destí de CZ està en equilibri mentre el tribunal nord-americà considera la petició del DOJ

Changpeng Zhao està a punt d'enfrontar-se avui a la sentència en un tribunal dels Estats Units a Seattle.

saber Més
Uneix-te a la nostra comunitat tecnològica innovadora
Més...
Llegeix més
El protocol d'infraestructura impulsat per ZKP ZKBase presenta el full de ruta i planeja el llançament de Testnet al maig
Informe de notícies Tecnologia
El protocol d'infraestructura impulsat per ZKP ZKBase presenta el full de ruta i planeja el llançament de Testnet al maig
Pot 9, 2024
BLOCKCHANCE i CONF3RENCE s'uneixen per als més grans d'Alemanya Web3 Conferència a Dortmund
Negocis mercats Software Històries i ressenyes Tecnologia
BLOCKCHANCE i CONF3RENCE s'uneixen per als més grans d'Alemanya Web3 Conferència a Dortmund
Pot 9, 2024
NuLink es llança a Bybit Web3 Plataforma IDO. La fase de subscripció s'estén fins al 13 de maig
mercats Informe de notícies Tecnologia
NuLink es llança a Bybit Web3 Plataforma IDO. La fase de subscripció s'estén fins al 13 de maig
Pot 9, 2024
UXLINK i Binance col·laboren en una nova campanya, oferint als usuaris 20 milions de punts UXUY i Airdrop Recompenses
mercats Informe de notícies Tecnologia
UXLINK i Binance col·laboren en una nova campanya, oferint als usuaris 20 milions de punts UXUY i Airdrop Recompenses
Pot 9, 2024
CRYPTOMERIA LABS PTE. LTD.