Uudiste reportaaž SMW Tehnoloogia
Võib 30 2023

SoundStorm: Google avalikustab hirmuäratava AI tööriista, mis on võimeline reaalajas häält replikeerima

Põgusalt

Google on tutvustanud SoundStormi, tipptasemel mudelit tõhusa ja mitteautoregressiivse heli genereerimiseks.

See kasutab kahesuunalist tähelepanu ja usalduspõhist paralleelset dekodeerimist, et luua kvaliteetset heli, vähendades samal ajal oluliselt genereerimisaega.

Sellel on ka võime sünteesida loomulikke dialooge.

Google tutvustas oma uusimat läbimurret tehisintellekti tehnoloogias SoundStorm, tipptasemel mudel tõhusaks ja mitteautoregressiivseks heli genereerimiseks. Võimalusega sünteesida dialooge erinevate häältega avab SoundStorm uusi võimalusi selliste rakenduste jaoks nagu kirjutatud tekstist helisisu genereerimine ja realistlike taskuhäälingusaadete loomine.

SoundStorm: Google avalikustab hirmuäratava AI tööriista, mis on võimeline reaalajas häält replikeerima
@Midjourney

Erinevalt oma eelkäijast AudioLM, SoundStorm kasutab uudset arhitektuuri, mis genereerib heli 30-sekundiliste tükkidena, suurendades tõhusust. Kasutades kahesuunalist tähelepanu ja usalduspõhist paralleelset dekodeerimist, toodab mudel kvaliteetset heli, vähendades samal ajal oluliselt genereerimisaega. Google'i TPU-v4 riistvaras suudab SoundStorm genereerida 30 sekundit heli vaid 0.5 sekundiga, mis tähistab olulist kiiruse paranemist.

SoundStormi koolitus viidi läbi 100,000 XNUMX tunni pikkuse dialoogi massilise andmestiku abil, mis tagab kõnekeele mustrite tugeva mõistmise. Mudel saavutab muljetavaldava järjepidevuse hääle- ja akustilistes tingimustes, säilitades samal ajal AudioLM-i saavutatud helikvaliteeti. See läbimurre muudab SoundStormi kaks suurusjärku kiiremaks kui tema eelkäija, näidates selle potentsiaali skaleeritava heli genereerimiseks.

Üks SoundStormi põhivõimalusi on selle võime sünteesida loomulikke dialooge, võimendades SPEAR-TTSi tekstist semantiliseks modelleerimise etappi. Esitades kõlarite pöördeid ja lühikesi hääljuhiseid, saavad kasutajad juhtida kõnesisu ja kõlarite hääli. Testimise ajal demonstreeris SoundStorm võimet sünteesida 30-sekundilisi dialoogisegmente vaid 2 sekundiga ühel TPU-v4-l, näidates selle tõhusust ja mitmekülgsust.

Voice prompt

Sünteesitud dialoog

Võrreldes standardsete lähtetasemetega, on SoundStormi loodud heli AudioLM-iga samaväärne ning see näitab suurepärast järjepidevust ja akustilist terviklikkust. Nimelt säilitab mudel kõnenäidise andmise korral kõneleja hääle hämmastava täpsusega, suurendades oluliselt selle võimet luua elutruud dialoogi.

Kuigi SoundStormi võimalused on silmapaistvad, on ülioluline ära tunda ja lahendada võimalikud eetilised mured. Algoritmi koolitusandmed võivad esile tuua rõhuasetuste ja häälefunktsioonidega seotud eelarvamusi. Häälte jäljendamise võimet võidakse kuritarvitada kellegi teisena esinemine või biomeetrilisest tuvastamisest mööda hiilida. Google rõhutab sellise kuritarvitamise vältimiseks kaitsemeetmete kehtestamise tähtsust tuvastatavuse tagamine loodud helist spetsiaalsete klassifikaatorite kaudu.

Google'i eetilised tehisintellekti põhimõtted juhivad tema jätkuvaid jõupingutusi võimalike ohtude ja piirangute käsitlemiseks. Organisatsioon mõistab vajadust põhjalikult uurida koolitusandmeid ja selle mõju mudelite väljunditele. Samuti kavatsevad nad uurida sünteesitud kõne tuvastamiseks täiendavaid lähenemisviise, näiteks heli vesimärki, et seda tehnoloogiat eetiliselt kasutada.

  • SoundStorm on suur samm edasi AI-toega helitootmises, pakkudes kvaliteetseid ja tõhusaid neuraalseid helikoodekist tuletatud heliesitusi. Google loodab, et SoundStormi väiksemad mälu- ja töötlemisvajadused muudavad heli genereerimise uuringud laiemale kogukonnale kättesaadavamaks. Google on jätkuvalt pühendunud vastutustundlike tehisintellekti tavade säilitamisele ning SoundStormi turvalise ja vastutustundliku kasutamise tagamisele ning võrreldavatele läbimurretele selles valdkonnas tehnoloogia arenedes.
  • ORGU, Microsofti uusim tekst kõneks muutmise (TTS) mudel, on suur samm edasi nende süsteemide hääle loomise parandamisel. VALL-E on a TTS mudel põhinevad trafodel, mis suudavad tekitada kõnet mis tahes häälega pärast seda, kui on kuulnud selle hääle kolmesekundilist näidist. See on suur edasiminek võrreldes varasemate mudelitega, mis nõudsid uue hääle arendamiseks oluliselt pikemat treeningperioodi.

Loe AI kohta lähemalt:

Kaebused

Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.

Umbes Autor

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks. 

Veel artikleid
Damir Jalalov
Damir Jalalov

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks. 

Karistuspäev saabub: CZ saatus on tasakaalus, kuna USA kohus võtab DOJ palvet arvesse

Changpeng Zhao ootab täna ees kohtuotsus USA Seattle'i kohtus.

Rohkem teada

Samourai rahakoti asutajaid süüdistatakse Darkneti tehingute 2 miljardi dollari suuruse hõlbustamises

Samourai Walleti asutajate kartus on tööstuse jaoks märkimisväärne tagasilöök, mis rõhutab püsivat ...

Rohkem teada
Liituge meie uuendusliku tehnikakogukonnaga
Loe rohkem
Loe edasi
Pantera Capital investeerib TON Blockchaini, väljendab usaldust Telegrami potentsiaali krüpto juurdepääsetavuse laiendamiseks
Äri Uudiste reportaaž Tehnoloogia
Pantera Capital investeerib TON Blockchaini, väljendab usaldust Telegrami potentsiaali krüpto juurdepääsetavuse laiendamiseks
Võib 2 2024
Mitosis kogub Amber Groupilt ja Foresight Venturesilt 7 miljonit dollarit raha, et edendada oma modulaarset likviidsusprotokolli
Äri Uudiste reportaaž Tehnoloogia
Mitosis kogub Amber Groupilt ja Foresight Venturesilt 7 miljonit dollarit raha, et edendada oma modulaarset likviidsusprotokolli
Võib 2 2024
Galxe teeb koostööd Jamboga, et laiendada ülemaailmset juurdepääsetavust Web3
Äri Uudiste reportaaž Tehnoloogia
Galxe teeb koostööd Jamboga, et laiendada ülemaailmset juurdepääsetavust Web3
Võib 2 2024
Google'i Med-Gemini on valmis andma edumaa GPT-4 Oma suurepärase jõudlusega tervishoius
AI Wiki Uudised tarkvara Tehnoloogia
Google'i Med-Gemini on valmis andma edumaa GPT-4 Oma suurepärase jõudlusega tervishoius
Võib 2 2024
CRYPTOMERIA LABS PTE. LTD.