Novinky Technika
Června 26, 2023

Google představuje AudioPaLM, výkonný jazykový model AI pro generování řeči

Stručně

AudioPaLM je výkonný jazykový model vyvinutý společností Google který kombinuje textové a řečové modely pro bezproblémové zpracování řeči a textu.

Zachovává paralingvistické informace a překonává stávající systémy v úlohách překladu řeči.

AudioPaLM umí překládat jazyky s diakritikou a provádět hlasové přenosy pro převod řeči do řeči.

Google představil jazykový model tzv AudioPaLM, který kombinuje jazykové modely založené na textu a řeči k bezproblémovému zpracování a generování řeči a textu. Sloučením schopností PaLM-2 a AudioLM, AudioPaLM nabízí jednotnou multimodální architekturu, která otevírá širokou škálu aplikací, včetně rozpoznávání řeči a převodu řeči do řeči.

Google představuje AudioPaLM, výkonný jazykový model pro generování řeči
Credit: Metaverse Post (mpost.io)

Jedním z pozoruhodných rysů AudioPaLM je jeho schopnost zachovat paralingvistické informace, jako je identita mluvčího a intonace, díky vlivu AudioLM. Zároveň využívá lingvistické znalosti obsažené v textových jazykových modelech, jako je PaLM-2. Inicializací AudioPaLM s váhami pouze textového velkého jazykového modelu tento model vyniká ve zpracování řeči a využívá rozsáhlá textová trénovací data používaná při předtrénování.

Pozoruhodné schopnosti AudioPaLM byly prokázány prostřednictvím různých experimentů. Překonal stávající systémy v úlohách překladu řeči a předvádí schopnost provádět zero-shot převod řeči na text pro jazyky, se kterými se během školení nesetkáte.

Kromě toho AudioPaLM vykazuje funkce audio jazykové modely přenosem hlasů mezi jazyky na základě krátkých mluvených výzev.

Google vytvořil příklady schopností AudioPaLM k dispozici k průzkumu. Schopnost modelu překládat jazyky se zřetelnými přízvuky, jako je italština a němčina, zaujala výzkumníky i uživatele. Kromě toho, jeho odbornost v provádění hlasových přenosů pro převod řeči do řeči jej odlišuje od stávajících základních linií, jak potvrzují jak automatické metriky, tak lidské vyhodnocovatele.

Model je velmi dobrý v překládání jazyka ze zvuku do zvuku v jiném jazyce, přičemž zachovává hlas a emoce člověka. Zajímavé je, že při překladu některých jazyků, jako je italština a němčina, má model znatelný přízvuk a při překladu jiných, například francouzštiny, mluví s dokonalým americkým přízvukem.

Model AudioPaLM s příklady převodu řeči do řeči a automatického rozpoznávání řeči.

Přečtěte si více o AI:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Institucionální apetit roste směrem k bitcoinovým ETF uprostřed volatility

Zveřejnění prostřednictvím podání 13F odhaluje, že pozoruhodní institucionální investoři fušují do bitcoinových ETF, což podtrhuje rostoucí akceptaci...

Vědět více

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
MPost Připojuje se k lídrům v oboru v kampani „Bitcoin si zaslouží Emoji“, která podporuje integraci symbolů bitcoinů na každé virtuální klávesnici
Životní styl Novinky Technika
MPost Připojuje se k lídrům v oboru v kampani „Bitcoin si zaslouží Emoji“, která podporuje integraci symbolů bitcoinů na každé virtuální klávesnici
10
Crypto Exchange OKX uvádí na burzu Notcoin a 16. května zavede spotové obchodování s párem NOT-USDT
Trhy Novinky Technika
Crypto Exchange OKX uvádí na burzu Notcoin a 16. května zavede spotové obchodování s párem NOT-USDT  
10
Blast zahajuje třetí distribuční událost Blast Gold, přiděluje 15 milionů bodů DApps
Trhy Novinky Technika
Blast zahajuje třetí distribuční událost Blast Gold, přiděluje 15 milionů bodů DApps
10
Espresso Systems spolupracuje s Polygon Labs na vývoji AggLayer pro zlepšení kumulativní interoperability
Business Novinky Technika
Espresso Systems spolupracuje s Polygon Labs na vývoji AggLayer pro zlepšení kumulativní interoperability
9
CRYPTOMERIA LABS PTE. LTD.