SoundStorm: Google real vaqtda ovozni takrorlash qobiliyatiga ega dahshatli AI vositasini taqdim etdi
Qisqacha
Google kompaniyasi SoundStorm-ni taqdim etdi, bu samarali va avtoregressiv bo'lmagan audio ishlab chiqarish uchun zamonaviy model.
U yuqori sifatli ovozni yaratish uchun ikki tomonlama e'tibor va ishonchga asoslangan parallel dekodlashni qo'llaydi va shu bilan birga ishlab chiqarish vaqtini sezilarli darajada kamaytiradi.
Shuningdek, u tabiiy dialoglarni sintez qilish qobiliyatiga ega.
Google sun'iy intellekt texnologiyasidagi so'nggi yutug'ini taqdim etdi SoundStorm, samarali va avtoregressiv bo'lmagan audio yaratish uchun zamonaviy model. Qobiliyati bilan dialoglarni sintez qilish turli ovozlar bilan SoundStorm yozma matndan audio kontent yaratish va real podkastlarni yaratish kabi ilovalar uchun yangi imkoniyatlar ochadi.
O'zidan oldingisidan farqli o'laroq AudioLM, SoundStorm yangi arxitekturadan foydalanadi, u 30 soniyali bo'laklarda ovoz hosil qiladi va samaradorlikni oshiradi. Ikki tomonlama e'tibor va ishonchga asoslangan parallel dekodlashdan foydalangan holda, model ishlab chiqarish vaqtini sezilarli darajada qisqartirgan holda yuqori sifatli audio ishlab chiqaradi. Google’ning TPU-v4 uskunasida SoundStorm atigi 30 soniyada 0.5 soniyalik audio ishlab chiqarishi mumkin, bu esa tezlikni sezilarli darajada yaxshilaganini ko‘rsatadi.
SoundStorm treningi 100,000 XNUMX soatlik dialogdan iborat katta ma'lumotlar to'plamidan foydalangan holda o'tkazildi, bu esa og'zaki til modellarini ishonchli tushunishni ta'minlaydi. Model AudioLM tomonidan erishilgan audio sifatini saqlab qolgan holda ovoz va akustik sharoitlarda ta'sirchan izchillikka erishadi. Ushbu yutuq SoundStorm-ni avvalgisidan ikki baravar tezroq qiladi, bu uning kengaytiriladigan audio ishlab chiqarish imkoniyatlarini namoyish etadi.
SoundStorm-ning asosiy imkoniyatlaridan biri bu SPEAR-TTS ning matndan semantik modellashtirish bosqichidan foydalangan holda tabiiy dialoglarni sintez qilish qobiliyatidir. Dinamik burilishlari va qisqa ovozli so'rovlar bilan transkriptlarni taqdim etish orqali foydalanuvchilar og'zaki tarkibni va ma'ruzachilarning ovozlarini boshqarishi mumkin. Sinov davomida SoundStorm 30 soniyali dialog segmentlarini atigi 2 soniyada bitta TPU-v4 da sintez qilish qobiliyatini namoyish etib, uning samaradorligi va ko‘p qirraliligini namoyish etdi.
Ovozli ogohlantirish
Sintezlangan dialog
Standart bazaviy ko'rsatkichlar bilan solishtirganda, SoundStorm tomonidan yaratilgan audio AudioLMga teng sifatga ega va yuqori mustahkamlik va akustik yaxlitlikni namoyish etadi. Shunisi e'tiborga loyiqki, nutq namunasini berish so'ralganda, model ma'ruzachining ovozini hayratlanarli aniqlik bilan saqlab qoladi va jonli dialog yaratish qobiliyatini sezilarli darajada oshiradi.
SoundStorm-ning imkoniyatlari ajoyib bo'lsa-da, mumkin bo'lgan muammolarni aniqlash va hal qilish juda muhimdir axloqiy tashvishlar. Algoritm uchun o'quv ma'lumotlari urg'u va ovoz xususiyatlariga nisbatan noto'g'ri fikrlarni keltirib chiqarishi mumkin. Ovozlarga taqlid qilish qobiliyati suiiste'mol qilinishi mumkin Birovning nomidan ish yoki biometrik identifikatsiyani chetlab o'tish uchun. Google bunday suiiste'mollikning oldini olish uchun himoya vositalarini o'rnatish muhimligini ta'kidlaydi va aniqlanishini ta'minlash maxsus tasniflagichlar orqali yaratilgan audio.
Googlening sun'iy intellektning axloqiy tamoyillari uning potentsial xavf va cheklovlarni bartaraf etish bo'yicha doimiy sa'y-harakatlarini boshqaradi. Tashkilot o'quv ma'lumotlarini va namunaviy natijalarga ta'sirini chuqur o'rganish zarurligini tushunadi. Ular, shuningdek, ushbu texnologiyadan axloqiy foydalanish uchun sintezlangan nutqni aniqlash uchun audio suv belgilari kabi qo'shimcha yondashuvlarni tekshirishni rejalashtirmoqda.
- SoundStorm yuqori sifatli va samarali neyron audio kodekdan olingan audio tasvirlarni taqdim etuvchi sun'iy intellekt asosidagi audio ishlab chiqarishda oldinga katta qadamdir. Google SoundStorm-ning past xotira va ishlov berish ehtiyojlari audio yaratish bo'yicha tadqiqotlarni kengroq hamjamiyat uchun qulayroq qilishini kutmoqda. Google mas'uliyatli sun'iy intellekt amaliyotlarini saqlab qolish va SoundStorm-dan xavfsiz va mas'uliyatli foydalanishni ta'minlash va texnologiya rivojlanishi bilan bu sohadagi o'xshash yutuqlarni ta'minlashga sodiq qoladi.
- vodiy, Microsoft-ning so'nggi matndan nutqqa (TTS) modeli bu tizimlarning ovozni yaratish usulini yaxshilashda oldinga katta qadamdir. VALL-E - a TTS modeli bu ovozning faqat uch soniyali namunasini eshitgandan so'ng har qanday ovozda nutq hosil qila oladigan transformatorlarga asoslangan. Bu oldingi modellarga nisbatan katta muvaffaqiyat bo'lib, yangi ovozni ishlab chiqish uchun ancha uzoqroq o'quv davri talab etiladi.
AI haqida ko'proq o'qing:
Masʼuliyatdan voz kechish
Bunga javoban Ishonch loyihasi bo'yicha ko'rsatmalar, iltimos, ushbu sahifada taqdim etilgan ma'lumotlar yuridik, soliq, investitsiya, moliyaviy yoki boshqa har qanday maslahat shakli sifatida talqin qilinmasligi va talqin qilinmasligini unutmang. Faqat yo'qotishingiz mumkin bo'lgan narsaga investitsiya qilish va agar shubhangiz bo'lsa, mustaqil moliyaviy maslahat olish muhimdir. Qo'shimcha ma'lumot olish uchun biz shartlar va emitent yoki reklama beruvchi tomonidan taqdim etilgan yordam va qo'llab-quvvatlash sahifalariga murojaat qilishni tavsiya qilamiz. MetaversePost to'g'ri, xolis hisobot berish majburiyatini oladi, lekin bozor sharoitlari ogohlantirilmasdan o'zgarishi mumkin.
Muallif haqida
Damir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi.
Boshqa maqolalarDamir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi.