Google presenta AudioPaLM, un potent model de llenguatge d'IA per a la generació de veu
En breu
AudioPaLM és un model de llenguatge potent desenvolupat per Google que combina models basats en text i basats en veu per a un processament de text i parla sense problemes.
Conserva la informació paralingüística i supera els sistemes existents en les tasques de traducció de la parla.
AudioPaLM pot traduir idiomes amb accent i realitzar transferències de veu per a la traducció de veu a veu.
Google ha presentat un model de llenguatge anomenat AudioPaLM, que combina models de llenguatge basats en text i en parla per processar i generar parla i text sense problemes. En fusionar les capacitats de PaLM-2 i AudioLM, AudioPaLM ofereix una arquitectura multimodal unificada que obre una àmplia gamma d'aplicacions, com ara el reconeixement de veu i la traducció de veu a veu.
Una característica notable d'AudioPaLM és la seva capacitat de preservar informació paralingüística com la identitat i l'entonació del parlant, gràcies a la influència d'AudioLM. Al mateix temps, aprofita els coneixements lingüístics que es troben en models de llenguatge basats en text com el PaLM-2. Mitjançant la inicialització d'AudioPaLM amb els pesos d'un model de llenguatge gran només de text, el model sobresurt en el processament de la parla, aprofitant les extenses dades d'entrenament de text que s'utilitzen en la formació prèvia.
Les capacitats notables d'AudioPaLM s'han demostrat mitjançant diversos experiments. Ha superat els sistemes existents en tasques de traducció de veu i mostra la capacitat de realitzar zero-shot traducció de veu a text per a idiomes no trobats durant la formació.
A més, AudioPaLM mostra característiques de models de llenguatge d'àudio transferint veus entre idiomes basant-se en indicacions orals breus.
Google ha fet exemples de les capacitats d'AudioPaLM disponible per a l'exploració. La capacitat del model de traduir idiomes amb accents diferents, com l'italià i l'alemany, ha intrigat tant els investigadors com els usuaris. A més, la seva competència a l'hora de realitzar transferències de veu per a la traducció de veu a veu el diferencia de les línies de base existents, tal com confirmen tant les mètriques automàtiques com els avaluadors humans.
El model és molt bo per traduir un idioma d'àudio a àudio en un altre idioma, preservant la veu i les emocions d'una persona. Curiosament, quan tradueix alguns idiomes com l'italià i l'alemany, el model té un accent notable, i quan tradueix altres, per exemple, el francès, parla amb un perfecte accent americà.
Llegeix més sobre AI:
renúncia
En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.
About The Autor
Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.
més articlesDamir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.