Rapport de nouvelles Technologie
Le 26 juin 2023

Google présente AudioPaLM, un puissant modèle de langage IA pour la génération de parole

En bref

AudioPaLM est un modèle de langage puissant développé par Google qui combine des modèles basés sur le texte et sur la parole pour un traitement transparent de la parole et du texte.

Il préserve les informations paralinguistiques et surpasse les systèmes existants dans les tâches de traduction vocale.

AudioPaLM peut traduire les langues accentuées et effectuer des transferts vocaux pour la traduction parole-parole.

Google a dévoilé un modèle de langage appelé AudioPaLM, qui combine des modèles de langage basés sur le texte et basés sur la parole pour traiter et générer de la parole et du texte de manière transparente. En fusionnant les capacités de PalM-2 ainsi que le AudioLM, AudioPaLM offre une architecture multimodale unifiée qui ouvre un large éventail d'applications, y compris la reconnaissance vocale et la traduction parole-parole.

Google présente AudioPaLM, un modèle de langage puissant pour la génération de parole
Crédit: Metaverse Post (mpost.io)

Une caractéristique notable d'AudioPaLM est sa capacité à préserver les informations paralinguistiques telles que l'identité et l'intonation du locuteur, grâce à l'influence d'AudioLM. En même temps, il exploite les connaissances linguistiques trouvées dans les modèles de langage textuel comme PaLM-2. En initialisant AudioPaLM avec les poids d'un grand modèle de langage textuel, le modèle excelle dans le traitement de la parole, tirant parti des données de formation de texte étendues utilisées dans la pré-formation.

Les capacités remarquables d'AudioPaLM ont été démontrées à travers diverses expériences. Il a surpassé les systèmes existants dans les tâches de traduction de la parole et présente la capacité d'effectuer un tir zéro traduction parole-texte pour les langues non rencontrées lors de la formation.

De plus, AudioPaLM présente des fonctionnalités de modèles de langage audio en transférant les voix entre les langues sur la base de courtes invites parlées.

Google a fait exemples des capacités d'AudioPaLM disponible pour exploration. La capacité du modèle à traduire des langues avec des accents distincts, comme l'italien et l'allemand, a intrigué les chercheurs et les utilisateurs. De plus, sa compétence à effectuer des transferts vocaux pour la traduction de parole en parole le distingue des références existantes, comme le confirment à la fois les mesures automatiques et les évaluateurs humains.

Le modèle est très bon pour traduire une langue de l'audio à l'audio dans une autre langue, en préservant la voix et les émotions d'une personne. Fait intéressant, lors de la traduction de certaines langues comme l'italien et l'allemand, le modèle a un accent notable, et lors de la traduction d'autres, par exemple le français, il parle avec un accent américain parfait.

Le modèle AudioPaLM avec des exemples de traduction parole-parole et de reconnaissance automatique de la parole.

En savoir plus sur l'IA :

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

L’appétit institutionnel augmente pour les ETF Bitcoin dans un contexte de volatilité

Les divulgations via les dépôts 13F révèlent que des investisseurs institutionnels notables se sont lancés dans les ETF Bitcoin, soulignant une acceptation croissante de...

En savoir plus

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Le protocole d'infrastructure alimenté par ZKP, ZKBase, dévoile sa feuille de route et prévoit le lancement de Testnet en mai
Rapport de nouvelles Technologie
Le protocole d'infrastructure alimenté par ZKP, ZKBase, dévoile sa feuille de route et prévoit le lancement de Testnet en mai
9 mai 2024
BLOCKCHANCE et CONF3RENCE s'unissent pour le plus grand projet d'Allemagne Web3 Conférence à Dortmund
La Brochure Marchés Logiciels Histoires et critiques Technologie
BLOCKCHANCE et CONF3RENCE s'unissent pour le plus grand projet d'Allemagne Web3 Conférence à Dortmund
9 mai 2024
NuLink se lance sur Bybit Web3 Plateforme IDO. La phase de souscription s'étend jusqu'au 13 mai
Marchés Rapport de nouvelles Technologie
NuLink se lance sur Bybit Web3 Plateforme IDO. La phase de souscription s'étend jusqu'au 13 mai
9 mai 2024
UXLINK et Binance collaborent sur une nouvelle campagne, offrant aux utilisateurs 20 millions de points UXUY et Airdrop Programme de fidélité
Marchés Rapport de nouvelles Technologie
UXLINK et Binance collaborent sur une nouvelle campagne, offrant aux utilisateurs 20 millions de points UXUY et Airdrop Programme de fidélité
9 mai 2024
CRYPTOMERIA LABS PTE. LTD.