Google introducerer AudioPaLM, en kraftfuld AI-sprogmodel til talegenerering
Kort sagt
AudioPaLM er en kraftfuld sprogmodel udviklet af Google der kombinerer tekstbaserede og talebaserede modeller til problemfri tale og tekstbehandling.
Det bevarer paralingvistisk information og udkonkurrerer eksisterende systemer i taleoversættelsesopgaver.
AudioPaLM kan oversætte sprog med accent og udføre stemmeoverførsler til tale-til-tale-oversættelse.
Google har afsløret en sprogmodel kaldet AudioPaLM, som kombinerer tekstbaserede og talebaserede sprogmodeller for at behandle og generere tale og tekst problemfrit. Ved at fusionere mulighederne for PALM-2 , AudioLM, AudioPaLM tilbyder en samlet multimodal arkitektur, der åbner op for en bred vifte af applikationer, herunder talegenkendelse og tale-til-tale-oversættelse.
Et bemærkelsesværdigt træk ved AudioPaLM er dets evne til at bevare paralingvistisk information som højttaleridentitet og intonation takket være indflydelsen fra AudioLM. Samtidig udnytter den den sproglige viden, der findes i tekstbaserede sprogmodeller som PaLM-2. Ved at initialisere AudioPaLM med vægten af en tekst-kun stor sprogmodel, udmærker modellen sig i talebehandling og drager fordel af de omfattende teksttræningsdata, der bruges i fortræning.
AudioPaLMs bemærkelsesværdige egenskaber er blevet demonstreret gennem forskellige eksperimenter. Det har overgået eksisterende systemer i taleoversættelsesopgaver og viser evnen til at udføre nul-skud tale-til-tekst oversættelse for sprog, man ikke støder på under træningen.
Derudover udviser AudioPaLM funktioner af lydsprog modeller ved at overføre stemmer på tværs af sprog baseret på korte talte prompter.
Google har lavet eksempler på AudioPaLMs muligheder tilgængelig for udforskning. Modellens evne til at oversætte sprog med tydelige accenter, såsom italiensk og tysk, har fascineret både forskere og brugere. Ydermere adskiller dens færdigheder i at udføre stemmeoverførsler til tale-til-tale-oversættelse den fra eksisterende basislinjer, som bekræftet af både automatiske målinger og menneskelige evaluatorer.
Modellen er meget god til at oversætte et sprog fra lyd til lyd på et andet sprog, og bevarer en persons stemme og følelser. Interessant nok, når man oversætter nogle sprog som italiensk og tysk, har modellen en mærkbar accent, og når man oversætter andre, for eksempel fransk, taler den med en perfekt amerikansk accent.
Læs mere om AI:
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.
Flere artiklerDamir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.