Ulat sa Balita SMW Teknolohiya
Mayo 30, 2023

SoundStorm: Inilabas ng Google ang Nakakatakot na AI Tool na May Kakayahang Real-Time Voice Replication

Sa madaling sabi

Ipinakilala ng Google ang SoundStorm, isang makabagong modelo para sa mahusay at hindi autoregressive na pagbuo ng audio.

Gumagamit ito ng bidirectional attention at parallel decoding na nakabatay sa kumpiyansa para makabuo ng de-kalidad na audio habang makabuluhang binabawasan ang oras ng pagbuo.

Mayroon din itong kakayahang mag-synthesize ng mga natural na diyalogo.

Ipinakilala ng Google ang pinakabagong tagumpay nito sa teknolohiya ng artificial intelligence na may SoundStorm, isang cutting-edge na modelo para sa mahusay at hindi autoregressive na pagbuo ng audio. Gamit ang kakayahang synthesize ang mga dialogue na may iba't ibang boses, nagbubukas ang SoundStorm ng mga bagong posibilidad para sa mga application tulad ng pagbuo ng audio content mula sa nakasulat na text at paglikha ng mga makatotohanang podcast.

SoundStorm: Inilabas ng Google ang Nakakatakot na AI Tool na May Kakayahang Real-Time Voice Replication
@Midjourney

Hindi tulad ng nauna nito AudioLM, Gumagamit ang SoundStorm ng nobelang arkitektura na bumubuo ng audio sa loob ng 30 segundo, na nagpapahusay ng kahusayan. Sa pamamagitan ng paggamit ng bidirectional attention at parallel decoding na nakabatay sa kumpiyansa, gumagawa ang modelo ng mataas na kalidad na audio habang makabuluhang binabawasan ang oras ng pagbuo. Sa TPU-v4 hardware ng Google, ang SoundStorm ay maaaring makabuo ng 30 segundo ng audio sa loob lamang ng 0.5 segundo, na nagmamarka ng malaking pagpapabuti ng bilis.

Ang pagsasanay ng SoundStorm ay isinagawa gamit ang napakalaking dataset ng 100,000 oras ng pag-uusap, na tinitiyak ang isang matatag na pag-unawa sa mga pattern ng sinasalitang wika. Nakakamit ng modelo ang kahanga-hangang pagkakapare-pareho sa mga kondisyon ng boses at acoustic habang pinapanatili ang kalidad ng audio na nakamit ng AudioLM. Ang pambihirang tagumpay na ito ay ginagawang mas mabilis ang SoundStorm ng dalawang order ng magnitude kaysa sa hinalinhan nito, na nagpapakita ng potensyal nito para sa scalable audio generation.

Ang isa sa mga pangunahing kakayahan ng SoundStorm ay ang kakayahang mag-synthesize ng mga natural na diyalogo sa pamamagitan ng paggamit ng text-to-semantic na yugto ng pagmomolde ng SPEAR-TTS. Sa pamamagitan ng pagbibigay ng mga transcript na may mga speaker turn at maikling voice prompt, makokontrol ng mga user ang sinasalitang content at ang boses ng mga speaker. Sa panahon ng pagsubok, ipinakita ng SoundStorm ang kakayahang mag-synthesize ng 30 segundong mga segment ng dialogue sa loob lamang ng 2 segundo sa isang TPU-v4, na nagpapakita ng kahusayan at versatility nito.

Prompt ng boses

Synthesized Dialogue

Kung ihahambing sa mga karaniwang baseline, ang audio na nabuo ng SoundStorm ay may katumbas na kalidad sa AudioLM at nagpapakita ng mahusay na pagkakapare-pareho at integridad ng acoustic. Kapansin-pansin, kapag sinenyasan na magbigay ng sample ng pagsasalita, pinapanatili ng modelo ang boses ng tagapagsalita nang may kamangha-manghang katumpakan, na lubos na nagpapalakas sa kapasidad nito na bumuo ng parang buhay na dialogue.

Bagama't namumukod-tangi ang mga kakayahan ng SoundStorm, mahalagang kilalanin at lutasin ang posible etikal na alalahanin. Ang data ng pagsasanay para sa algorithm ay maaaring magpakilala ng mga bias na nauugnay sa mga accent at feature ng boses. Maaaring abusuhin ang kakayahang gayahin ang mga boses pagpapanggap o upang iwasan ang biometric na pagkakakilanlan. Binibigyang-diin ng Google ang kahalagahan ng paglalagay ng mga proteksyon upang maiwasan ang gayong pang-aabuso at tinitiyak ang detectability ng nilikhang audio sa pamamagitan ng mga nakalaang classifier.

Ang mga etikal na prinsipyo ng AI ng Google ay nagtutulak sa patuloy nitong pagsisikap na tugunan ang mga potensyal na panganib at hadlang. Napagtanto ng organisasyon ang pangangailangang gumawa ng masusing pag-aaral ng data ng pagsasanay at ang mga implikasyon para sa mga output ng modelo. Plano rin nilang mag-imbestiga ng mga karagdagang diskarte, tulad ng audio watermarking, para sa pag-detect ng synthesized na pagsasalita upang magamit nang tama ang teknolohiyang ito.

  • Ang SoundStorm ay isang malaking hakbang sa paggawa ng audio na pinapagana ng AI, na nagbibigay ng mataas na kalidad at mahusay na mga representasyon ng audio na nagmula sa neural audio codec. Inaasahan ng Google na ang mas mababang memorya at mga pangangailangan sa pagpoproseso ng SoundStorm ay gagawing mas naa-access ang pananaliksik sa pagbuo ng audio sa isang mas malawak na komunidad. Nananatiling nakatuon ang Google sa pagpapanatili ng mga responsableng kasanayan sa AI at pagtiyak sa ligtas at responsableng paggamit ng SoundStorm at maihahambing na mga tagumpay sa larangan habang umuunlad ang teknolohiya.
  • LABA, ang pinakabagong text-to-speech (TTS) na modelo ng Microsoft, ay isang malaking hakbang pasulong sa pagpapahusay kung paano bumubuo ng boses ang mga system na ito. Ang VALL-E ay isang modelo ng TTS batay sa mga transformer na maaaring makabuo ng pagsasalita sa anumang boses pagkatapos lamang makarinig ng tatlong segundong sample ng boses na iyon. Ito ay isang malaking pag-unlad sa mga naunang modelo, na nangangailangan ng isang makabuluhang mas mahabang panahon ng pagsasanay upang bumuo ng isang bagong boses.

Magbasa pa tungkol sa AI:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa

Ang Mga Tagapagtatag ng Samourai Wallet ay Inakusahan na Nagpapadali ng $2B sa Darknet Deals

Ang pangamba ng mga tagapagtatag ng Samourai Wallet ay kumakatawan sa isang kapansin-pansing pag-urong para sa industriya, na binibigyang-diin ang patuloy na ...

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
Ang Pantera Capital ay Namumuhunan Sa TON Blockchain, Nagpahayag ng Kumpiyansa Sa Potensyal ng Telegram na Palawakin ang Accessibility ng Crypto
Negosyo Ulat sa Balita Teknolohiya
Ang Pantera Capital ay Namumuhunan Sa TON Blockchain, Nagpahayag ng Kumpiyansa Sa Potensyal ng Telegram na Palawakin ang Accessibility ng Crypto
Mayo 2, 2024
Ang Mitosis ay Nagtaas ng $7M Sa Pagpopondo Mula sa Amber Group At Foresight Ventures Upang Isulong ang Modular Liquidity Protocol Nito
Negosyo Ulat sa Balita Teknolohiya
Ang Mitosis ay Nagtaas ng $7M Sa Pagpopondo Mula sa Amber Group At Foresight Ventures Upang Isulong ang Modular Liquidity Protocol Nito
Mayo 2, 2024
Nakipagtulungan ang Galxe Sa Jambo Para Palawakin ang Global Accessibility To Web3
Negosyo Ulat sa Balita Teknolohiya
Nakipagtulungan ang Galxe Sa Jambo Para Palawakin ang Global Accessibility To Web3
Mayo 2, 2024
Nakahanda ang Med-Gemini ng Google na Magsimula sa GPT-4 Sa Superior na Pagganap nito sa Pangangalagang Pangkalusugan
AI Wiki Balita software Teknolohiya
Nakahanda ang Med-Gemini ng Google na Magsimula sa GPT-4 Sa Superior na Pagganap nito sa Pangangalagang Pangkalusugan
Mayo 2, 2024
CRYPTOMERIA LABS PTE. LTD.