Yangiliklar hisoboti SMW texnologiya
, 30 2023 mumkin

SoundStorm: Google real vaqtda ovozni takrorlash qobiliyatiga ega dahshatli AI vositasini taqdim etdi

Qisqacha

Google kompaniyasi SoundStorm-ni taqdim etdi, bu samarali va avtoregressiv bo'lmagan audio ishlab chiqarish uchun zamonaviy model.

U yuqori sifatli ovozni yaratish uchun ikki tomonlama e'tibor va ishonchga asoslangan parallel dekodlashni qo'llaydi va shu bilan birga ishlab chiqarish vaqtini sezilarli darajada kamaytiradi.

Shuningdek, u tabiiy dialoglarni sintez qilish qobiliyatiga ega.

Google sun'iy intellekt texnologiyasidagi so'nggi yutug'ini taqdim etdi SoundStorm, samarali va avtoregressiv bo'lmagan audio yaratish uchun zamonaviy model. Qobiliyati bilan dialoglarni sintez qilish turli ovozlar bilan SoundStorm yozma matndan audio kontent yaratish va real podkastlarni yaratish kabi ilovalar uchun yangi imkoniyatlar ochadi.

SoundStorm: Google real vaqtda ovozni takrorlash qobiliyatiga ega dahshatli AI vositasini taqdim etdi
@Midjourney

O'zidan oldingisidan farqli o'laroq AudioLM, SoundStorm yangi arxitekturadan foydalanadi, u 30 soniyali bo'laklarda ovoz hosil qiladi va samaradorlikni oshiradi. Ikki tomonlama e'tibor va ishonchga asoslangan parallel dekodlashdan foydalangan holda, model ishlab chiqarish vaqtini sezilarli darajada qisqartirgan holda yuqori sifatli audio ishlab chiqaradi. Google’ning TPU-v4 uskunasida SoundStorm atigi 30 soniyada 0.5 soniyalik audio ishlab chiqarishi mumkin, bu esa tezlikni sezilarli darajada yaxshilaganini ko‘rsatadi.

SoundStorm treningi 100,000 XNUMX soatlik dialogdan iborat katta ma'lumotlar to'plamidan foydalangan holda o'tkazildi, bu esa og'zaki til modellarini ishonchli tushunishni ta'minlaydi. Model AudioLM tomonidan erishilgan audio sifatini saqlab qolgan holda ovoz va akustik sharoitlarda ta'sirchan izchillikka erishadi. Ushbu yutuq SoundStorm-ni avvalgisidan ikki baravar tezroq qiladi, bu uning kengaytiriladigan audio ishlab chiqarish imkoniyatlarini namoyish etadi.

SoundStorm-ning asosiy imkoniyatlaridan biri bu SPEAR-TTS ning matndan semantik modellashtirish bosqichidan foydalangan holda tabiiy dialoglarni sintez qilish qobiliyatidir. Dinamik burilishlari va qisqa ovozli so'rovlar bilan transkriptlarni taqdim etish orqali foydalanuvchilar og'zaki tarkibni va ma'ruzachilarning ovozlarini boshqarishi mumkin. Sinov davomida SoundStorm 30 soniyali dialog segmentlarini atigi 2 soniyada bitta TPU-v4 da sintez qilish qobiliyatini namoyish etib, uning samaradorligi va ko‘p qirraliligini namoyish etdi.

Ovozli ogohlantirish

Sintezlangan dialog

Standart bazaviy ko'rsatkichlar bilan solishtirganda, SoundStorm tomonidan yaratilgan audio AudioLMga teng sifatga ega va yuqori mustahkamlik va akustik yaxlitlikni namoyish etadi. Shunisi e'tiborga loyiqki, nutq namunasini berish so'ralganda, model ma'ruzachining ovozini hayratlanarli aniqlik bilan saqlab qoladi va jonli dialog yaratish qobiliyatini sezilarli darajada oshiradi.

SoundStorm-ning imkoniyatlari ajoyib bo'lsa-da, mumkin bo'lgan muammolarni aniqlash va hal qilish juda muhimdir axloqiy tashvishlar. Algoritm uchun o'quv ma'lumotlari urg'u va ovoz xususiyatlariga nisbatan noto'g'ri fikrlarni keltirib chiqarishi mumkin. Ovozlarga taqlid qilish qobiliyati suiiste'mol qilinishi mumkin Birovning nomidan ish yoki biometrik identifikatsiyani chetlab o'tish uchun. Google bunday suiiste'mollikning oldini olish uchun himoya vositalarini o'rnatish muhimligini ta'kidlaydi va aniqlanishini ta'minlash maxsus tasniflagichlar orqali yaratilgan audio.

Googlening sun'iy intellektning axloqiy tamoyillari uning potentsial xavf va cheklovlarni bartaraf etish bo'yicha doimiy sa'y-harakatlarini boshqaradi. Tashkilot o'quv ma'lumotlarini va namunaviy natijalarga ta'sirini chuqur o'rganish zarurligini tushunadi. Ular, shuningdek, ushbu texnologiyadan axloqiy foydalanish uchun sintezlangan nutqni aniqlash uchun audio suv belgilari kabi qo'shimcha yondashuvlarni tekshirishni rejalashtirmoqda.

  • SoundStorm yuqori sifatli va samarali neyron audio kodekdan olingan audio tasvirlarni taqdim etuvchi sun'iy intellekt asosidagi audio ishlab chiqarishda oldinga katta qadamdir. Google SoundStorm-ning past xotira va ishlov berish ehtiyojlari audio yaratish bo'yicha tadqiqotlarni kengroq hamjamiyat uchun qulayroq qilishini kutmoqda. Google mas'uliyatli sun'iy intellekt amaliyotlarini saqlab qolish va SoundStorm-dan xavfsiz va mas'uliyatli foydalanishni ta'minlash va texnologiya rivojlanishi bilan bu sohadagi o'xshash yutuqlarni ta'minlashga sodiq qoladi.
  • vodiy, Microsoft-ning so'nggi matndan nutqqa (TTS) modeli bu tizimlarning ovozni yaratish usulini yaxshilashda oldinga katta qadamdir. VALL-E - a TTS modeli bu ovozning faqat uch soniyali namunasini eshitgandan so'ng har qanday ovozda nutq hosil qila oladigan transformatorlarga asoslangan. Bu oldingi modellarga nisbatan katta muvaffaqiyat bo'lib, yangi ovozni ishlab chiqish uchun ancha uzoqroq o'quv davri talab etiladi.

AI haqida ko'proq o'qing:

Masʼuliyatdan voz kechish

Bunga javoban Ishonch loyihasi bo'yicha ko'rsatmalar, iltimos, ushbu sahifada taqdim etilgan ma'lumotlar yuridik, soliq, investitsiya, moliyaviy yoki boshqa har qanday maslahat shakli sifatida talqin qilinmasligi va talqin qilinmasligini unutmang. Faqat yo'qotishingiz mumkin bo'lgan narsaga investitsiya qilish va agar shubhangiz bo'lsa, mustaqil moliyaviy maslahat olish muhimdir. Qo'shimcha ma'lumot olish uchun biz shartlar va emitent yoki reklama beruvchi tomonidan taqdim etilgan yordam va qo'llab-quvvatlash sahifalariga murojaat qilishni tavsiya qilamiz. MetaversePost to'g'ri, xolis hisobot berish majburiyatini oladi, lekin bozor sharoitlari ogohlantirilmasdan o'zgarishi mumkin.

Muallif haqida

Damir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi. 

Boshqa maqolalar
Damir Yalolov
Damir Yalolov

Damir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi. 

Hukm chiqarish kuni keldi: AQSh sudi DOJning iltimosini ko'rib chiqayotgani sababli CZ taqdiri muvozanatda.

Changpeng Chjao bugun AQShning Sietldagi sudida hukm chiqarilishiga tayyor.

Ko'proq ma'lumot oling

Samourai Wallet asoschilari Darknet bitimlarida 2 milliard dollarga yordam berishda ayblanmoqda

Samourai Wallet asoschilarining qo'rquvi sanoat uchun sezilarli muvaffaqiyatsizlikni anglatadi, bu doimiy ...

Ko'proq ma'lumot oling
Innovatsion texnologiyalar hamjamiyatimizga qo'shiling
Ko'proq o'qing
Ko'proq o'qing
Pantera Capital TON blokcheyniga sarmoya kiritadi va Telegramning kriptovalyuta imkoniyatlarini kengaytirish potentsialiga ishonch bildiradi
ish Yangiliklar hisoboti texnologiya
Pantera Capital TON blokcheyniga sarmoya kiritadi va Telegramning kriptovalyuta imkoniyatlarini kengaytirish potentsialiga ishonch bildiradi
, 2 2024 mumkin
Mitoz modulli likvidlik protokolini rivojlantirish uchun Amber Group va Foresight Venturesdan $7 million mablag' yig'adi
ish Yangiliklar hisoboti texnologiya
Mitoz modulli likvidlik protokolini rivojlantirish uchun Amber Group va Foresight Venturesdan $7 million mablag' yig'adi
, 2 2024 mumkin
Global foydalanish imkoniyatlarini kengaytirish uchun Galxe Jambo bilan hamkorlik qiladi Web3
ish Yangiliklar hisoboti texnologiya
Global foydalanish imkoniyatlarini kengaytirish uchun Galxe Jambo bilan hamkorlik qiladi Web3
, 2 2024 mumkin
Googlening Med-Gemini boshini boshlashga tayyor GPT-4 Sog'liqni saqlash sohasidagi eng yuqori ko'rsatkichlari bilan
AI Wiki Yangiliklar Dastur texnologiya
Googlening Med-Gemini boshini boshlashga tayyor GPT-4 Sog'liqni saqlash sohasidagi eng yuqori ko'rsatkichlari bilan
, 2 2024 mumkin
CRYPTOMERIA LABS PTE. LTD.