Xəbər Hesabatı SMW Texnologiya
30 May 2023

SoundStorm: Google real vaxtda səsin təkrarlanmasına qadir olan dəhşətli süni intellekt alətini təqdim edir

Qısaca

Google effektiv və avtoreqressiv olmayan audio generasiya üçün qabaqcıl model olan SoundStorm-u təqdim etdi.

O, yüksək keyfiyyətli audio yaratmaq üçün iki istiqamətli diqqət və etibarlılığa əsaslanan paralel dekodlaşdırmadan istifadə edir, eyni zamanda nəsil vaxtını əhəmiyyətli dərəcədə azaldır.

O, həm də təbii dialoqları sintez etmək qabiliyyətinə malikdir.

Google, süni intellekt texnologiyasındakı ən son nailiyyətini təqdim etdi SoundStorm, səmərəli və avtoreqressiv olmayan audio generasiya üçün qabaqcıl model. Bacarığı ilə dialoqları sintez edir müxtəlif səslərlə, SoundStorm yazılı mətndən audio məzmun yaratmaq və real podkastlar yaratmaq kimi tətbiqlər üçün yeni imkanlar açır.

SoundStorm: Google real vaxtda səsin təkrarlanmasına qadir olan dəhşətli süni intellekt alətini təqdim edir
@Midjourney

Sələfindən fərqli olaraq AudioLM, SoundStorm səmərəliliyi artıraraq 30 saniyəlik hissələrdə səs yaradan yeni bir arxitekturadan istifadə edir. İki istiqamətli diqqət və etibarlılığa əsaslanan paralel dekodlaşdırmadan istifadə edərək, model nəsil vaxtını əhəmiyyətli dərəcədə azaldaraq yüksək keyfiyyətli audio istehsal edir. Google-un TPU-v4 avadanlığında SoundStorm cəmi 30 saniyə ərzində 0.5 saniyəlik audio yarada bilər ki, bu da sürətin əhəmiyyətli dərəcədə yaxşılaşmasına işarə edir.

SoundStorm-un təlimi şifahi dil nümunələrinin möhkəm başa düşülməsini təmin edən 100,000 saatlıq dialoqdan ibarət kütləvi verilənlər bazasından istifadə etməklə həyata keçirilib. Model AudioLM-in əldə etdiyi səs keyfiyyətini qoruyarkən səs və akustik şəraitdə təsirli ardıcıllığa nail olur. Bu sıçrayış SoundStorm-u sələfindən iki dəfə daha sürətli edir və onun genişləndirilə bilən audio generasiya potensialını nümayiş etdirir.

SoundStorm-un əsas imkanlarından biri SPEAR-TTS-in mətndən semantik modelləşdirmə mərhələsindən istifadə etməklə təbii dialoqları sintez etmək qabiliyyətidir. Dinamik növbələri və qısa səsli göstərişlər ilə transkriptləri təmin etməklə istifadəçilər danışıq məzmununu və dinamiklərin səslərini idarə edə bilərlər. Test zamanı SoundStorm tək TPU-v30-də 2 saniyəlik dialoq seqmentlərini cəmi 4 saniyə ərzində sintez etmək qabiliyyətini nümayiş etdirərək onun səmərəliliyini və çox yönlülüyünü nümayiş etdirdi.

Səs istədi

Sintezləşdirilmiş Dialoq

Standart əsaslarla müqayisə edildikdə, SoundStorm tərəfindən yaradılan audio AudioLM-ə ekvivalent keyfiyyətə malikdir və üstün ardıcıllıq və akustik bütövlük nümayiş etdirir. Qeyd edək ki, nitq nümunəsi vermək istənildikdə, model natiqin səsini heyrətamiz dəqiqliklə qoruyur və canlı dialoq yaratmaq qabiliyyətini xeyli artırır.

SoundStorm-un imkanları üstün olsa da, mümkün olanı tanımaq və həll etmək çox vacibdir etik narahatlıqlar. Alqoritm üçün təlim məlumatları vurğu və səs xüsusiyyətləri ilə bağlı qərəzli yanaşmalar təqdim edə bilər. Səsləri təqlid etmək qabiliyyətindən sui-istifadə edilə bilər impersonation və ya biometrik identifikasiyadan yayınmaq üçün. Google bu cür sui-istifadənin qarşısını almaq üçün mühafizə vasitələrinin tətbiqinin əhəmiyyətini vurğulayır və aşkarlanmasını təmin edir xüsusi təsnifatlar vasitəsilə yaradılmış audio.

Google-un etik süni intellekt prinsipləri potensial təhlükələri və məhdudiyyətləri aradan qaldırmaq üçün davamlı səylərini idarə edir. Təşkilat təlim məlumatlarının və model nəticələrinin nəticələrinin hərtərəfli öyrənilməsinin zəruriliyini dərk edir. Onlar həmçinin bu texnologiyadan etik istifadə etmək üçün sintez edilmiş nitqin aşkarlanması üçün audio su nişanı kimi əlavə yanaşmaları araşdırmağı planlaşdırırlar.

  • SoundStorm süni intellektlə işləyən audio istehsalında irəliyə doğru böyük bir addımdır, yüksək keyfiyyətli və effektiv neyron audio kodekdən əldə edilən audio təqdimatlar təqdim edir. Google gözləyir ki, SoundStorm-un daha aşağı yaddaş və emal ehtiyacları audio nəsil tədqiqatlarını daha geniş ictimaiyyət üçün daha əlçatan edəcək. Google məsuliyyətli süni intellekt təcrübələrini qorumağa, SoundStorm-un təhlükəsiz və məsuliyyətli istifadəsini və texnologiyanın inkişafı ilə bu sahədə müqayisə edilə bilən nailiyyətləri təmin etməyə sadiq qalır.
  • VƏDİ, Microsoft-un ən son mətndən nitqə (TTS) modeli bu sistemlərin səs yaratma üsulunu təkmilləşdirməkdə irəliyə doğru böyük bir addımdır. VALL-E a TTS modeli bu səsin yalnız üç saniyəlik nümunəsini eşitdikdən sonra istənilən səsdə nitq yarada bilən transformatorlara əsaslanır. Bu, yeni səsin hazırlanması üçün xeyli uzun təlim müddəti tələb edən əvvəlki modellərlə müqayisədə böyük irəliləyişdir.

AI haqqında daha çox oxuyun:

Məsuliyyətdən imtina

uyğun olaraq Güvən Layihəsi qaydaları, lütfən nəzərə alın ki, bu səhifədə təqdim olunan məlumat hüquqi, vergi, investisiya, maliyyə və ya hər hansı digər məsləhət forması kimi təfsir edilməməlidir və təfsir edilməməlidir. Yalnız itirə biləcəyiniz şeyə investisiya qoymaq və hər hansı bir şübhəniz varsa, müstəqil maliyyə məsləhətləri axtarmaq vacibdir. Əlavə məlumat üçün biz emitent və ya reklamçı tərəfindən təmin edilən şərtlər və şərtlərə, həmçinin yardım və dəstək səhifələrinə müraciət etməyi təklif edirik. MetaversePost dəqiq, qərəzsiz hesabat verməyə sadiqdir, lakin bazar şərtləri xəbərdarlıq edilmədən dəyişdirilə bilər.

Müəllif haqqında

Damir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi. 

Ətraflı məqalələr
Damir Yalalov
Damir Yalalov

Damir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi. 

Hökm günü gəldi: ABŞ Məhkəməsi DOJ-nin iddiasını nəzərdən keçirərkən CZ-nin taleyi tarazlıqda qalır

Changpeng Zhao bu gün Sietldəki ABŞ məhkəməsində hökm oxumağa hazırlaşır.

Daha çox məlumat

Samourai Wallet təsisçiləri Darknet sövdələşmələrində 2 milyard dollara kömək etməkdə ittiham olunurlar

Samourai Wallet qurucularının narahatlığı sənaye üçün nəzərəçarpacaq bir uğursuzluğu təmsil edir və davamlı ...

Daha çox məlumat
İnnovativ Texniki İcmamıza Qoşulun
Daha çox oxu
Daha çox oxu
Pantera Capital TON Blockchain-ə sərmayə qoyur, Telegram-ın kriptovalyuta imkanlarını genişləndirmək potensialına inamını ifadə edir
Biznes Xəbər Hesabatı Texnologiya
Pantera Capital TON Blockchain-ə sərmayə qoyur, Telegram-ın kriptovalyuta imkanlarını genişləndirmək potensialına inamını ifadə edir
2 May 2024
Mitosis, Modul Likvidlik Protokolunu təkmilləşdirmək üçün Amber Group və Foresight Ventures-dan 7 milyon dollar vəsait topladı
Biznes Xəbər Hesabatı Texnologiya
Mitosis, Modul Likvidlik Protokolunu təkmilləşdirmək üçün Amber Group və Foresight Ventures-dan 7 milyon dollar vəsait topladı
2 May 2024
Qlobal əlçatanlığı genişləndirmək üçün Galxe Jambo ilə əməkdaşlıq edir Web3
Biznes Xəbər Hesabatı Texnologiya
Qlobal əlçatanlığı genişləndirmək üçün Galxe Jambo ilə əməkdaşlıq edir Web3
2 May 2024
Google-un Med-Əkizlər Bürcləri Başlanğıc Verməyə Hazırdır GPT-4 Səhiyyədə Üstün Performansı ilə
AI Wiki xəbər Proqram təminatı Texnologiya
Google-un Med-Əkizlər Bürcləri Başlanğıc Verməyə Hazırdır GPT-4 Səhiyyədə Üstün Performansı ilə
2 May 2024
CRYPTOMERIA LABS PTE. LTD.