Ny AI-modell syntetiserar realistiskt tal med hjälp av YouTube och podcasts
I korthet
Forskare från Carnegie Mellon University har skapat en ny artificiell intelligensmodell som kan generera realistiskt tal genom att lära sig av YouTube-videor och poddsändningar.
Modellen kunde lära sig nyanserna i naturliga talmönster genom att lyssna på nästan 900 timmars YouTube- och podcastinnehåll, vilket resulterade i en mer realistisk och verklighetstrogen syntetisk röst.
Forskare från Carnegie Mellon University i USA har skapat en ny artificiell intelligensmodell som kan generera realistiskt tal genom att lära sig av YouTube-videor och poddsändningar. Modellen är kapabel att producera tal i en mängd olika röster och accenter, vilket gör den till ett potentiellt användbart verktyg för branscher som underhållning och reklam. Det kan också få konsekvenser för dem som är beroende av hjälpmedel för att kommunicera.
Detta är en betydande utveckling, eftersom majoriteten av AI-genererat tal har visat sig vara känslolöst och monotont på grund av att det vanligtvis tränas på datamängder där talet från professionella skådespelare spelas in. Den nya tekniken kan användas för att förbättra prestandan för virtuella assistenter och chatbots, vilket gör dem mer engagerande och mänskliga. Det har också potentiella tillämpningar inom områden som spel, utbildning och underhållning.
Den nya modellen kunde dock lära sig nyanserna av naturliga talmönster, såsom pauser, interjektioner och parasitiska ord, genom att lyssna på nästan 900 timmars YouTube- och podcastinnehåll. Detta resulterade i en mer realistisk och verklighetstrogen syntetisk röst, som fick betyget 3.89 på en femgradig skala av personer som ombads att utvärdera den. Detta är högre än det genomsnittliga betyget för liknande AI-modeller (en riktig mänsklig röst fick 4.01).
De potentiella tillämpningarna av denna teknik är enorma och inkluderar att hjälpa personer med talstörningar, förbättra navigationssystem och skapa mer naturligt klingande virtuella assistenter.
- PodcastAI är den första podcasten någonsin producerad av AI, med en parodi på Joe Rogan som intervjuar Steve Jobs. Denna podcast är helt och hållet gjord av AI-datoralgoritmer. AI:n tränades för Steve Jobs-avsnittet med hjälp av både hans biografi och alla internetinspelningar av honom som kunde upptäckas. Detta gjorde det möjligt för AI att troget återskapa sin personlighet.
Läs fler relaterade artiklar:
Villkor
I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.
Om författaren
Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.
fler artiklarDamir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.