Rapport de nouvelles Technologie
15 mars 2023

Un nouveau modèle d'IA synthétise un discours réaliste à l'aide de YouTube et de podcasts

En bref

Des chercheurs de l'Université Carnegie Mellon ont créé un nouveau modèle d'intelligence artificielle capable de générer un discours réaliste en apprenant des vidéos YouTube et podcasts.

Le modèle a pu apprendre les nuances des modèles de parole naturels en écoutant près de 900 heures de contenu YouTube et podcast, ce qui a donné une voix synthétique plus réaliste et plus réaliste.

Des chercheurs de l'Université Carnegie Mellon aux États-Unis ont créé un nouveau modèle d'intelligence artificielle capable de générer un discours réaliste en apprenant à partir de vidéos et de podcasts YouTube. Le modèle est capable de produire des discours dans une variété de voix et d'accents, ce qui en fait un outil potentiellement utile pour des industries telles que le divertissement et la publicité. Cela pourrait également avoir des implications pour ceux qui comptent sur la technologie d'assistance pour communiquer.

Un nouveau modèle d'IA synthétise un discours réaliste à l'aide de YouTube et de podcasts
Le modèle d'IA est capable d'imiter les modèles de parole et les intonations humaines avec une grande précision.

Il s'agit d'un développement significatif, car la majorité des discours générés par l'IA se sont avérés sans émotion et monotones en raison du fait qu'ils sont généralement formés sur des ensembles de données où le discours d'acteurs professionnels est enregistré. La nouvelle technologie peut être utilisée pour améliorer les performances des assistants virtuels et des chatbots, les rendant plus attrayants et plus humains. Il a également des applications potentielles dans des domaines tels que les jeux, l'éducation et le divertissement.

Lire la suite: 15 meilleurs podcasts crypto que vous devez écouter en 2023

Le nouveau modèle, cependant, a pu apprendre les nuances des schémas de parole naturels, tels que les pauses, les interjections et les mots parasites, en écoutant près de 900 heures de contenu YouTube et podcast. Cela a abouti à une voix synthétique plus réaliste et réaliste, qui a été notée 3.89 sur une échelle de cinq points par les personnes à qui on a demandé de l'évaluer. C'est plus élevé que le score moyen reçu par des modèles d'IA similaires (une vraie voix humaine a obtenu un score de 4.01).

Les applications potentielles de cette technologie sont vastes et comprennent l'aide aux personnes souffrant de troubles de la parole, l'amélioration des systèmes de navigation et la création d'assistants virtuels au son plus naturel.

  • PodcastAI est le premier podcast jamais produit par AI, mettant en vedette une parodie de Joe Rogan interviewant Steve Jobs. Ce podcast est entièrement réalisé par des algorithmes informatiques AI. L'IA a été formée pour l'épisode de Steve Jobs en utilisant à la fois sa biographie et tout enregistrement Internet de lui qui pourrait le découvrir. Cela a permis à l'IA de recréer fidèlement sa personnalité.

Lire plus d'articles connexes:

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

La frénésie DOGE : analyse de la récente hausse de valeur de Dogecoin (DOGE)

L’industrie des crypto-monnaies se développe rapidement et les pièces meme se préparent à une reprise significative. Dogecoin (DOGE), ...

En savoir plus

L'évolution du contenu généré par l'IA dans le métaverse

L'émergence du contenu génératif de l'IA est l'un des développements les plus fascinants de l'environnement virtuel...

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Scroll achève la mise à niveau du réseau principal de Bernoulli et prévoit une diminution de 10 fois des coûts de transaction
Rapport de nouvelles Technologie
Scroll achève la mise à niveau du réseau principal de Bernoulli et prévoit une diminution de 10 fois des coûts de transaction
29 avril 2024
OKX Jumpstart répertorie Runecoin et permet au BTC Staking de gagner des jetons RUNE
Marchés Rapport de nouvelles Technologie
OKX Jumpstart répertorie Runecoin et permet au BTC Staking de gagner des jetons RUNE
29 avril 2024
Les meilleures offres de la semaine, les investissements majeurs dans l'IA, l'informatique, Web3, et Crypto (22-26.04)
Digérer La Brochure Marchés Technologie
Les meilleures offres de la semaine, les investissements majeurs dans l'IA, l'informatique, Web3, et Crypto (22-26.04)
26 avril 2024
Vitalik Buterin commente la centralisation du PoW et note qu'il s'agissait d'une étape temporaire jusqu'au PoS
Rapport de nouvelles Technologie
Vitalik Buterin commente la centralisation du PoW et note qu'il s'agissait d'une étape temporaire jusqu'au PoS
26 avril 2024
CRYPTOMERIA LABS PTE. LTD.