SoundStorm: Google разкрива ужасяващ AI инструмент, способен да репликира глас в реално време
Накратко
Google представи SoundStorm, авангарден модел за ефективно и неавторегресивно аудио генериране.
Той използва двупосочно внимание и базирано на увереност паралелно декодиране, за да генерира висококачествено аудио, като същевременно значително намалява времето за генериране.
Освен това има способността да синтезира естествени диалози.
Google представи най-новия си пробив в технологията за изкуствен интелект с SoundStorm, авангарден модел за ефективно и неавторегресивно аудио генериране. Със способността да синтезирайте диалози с различни гласове, SoundStorm отваря нови възможности за приложения като генериране на аудио съдържание от писмен текст и създаване на реалистични подкасти.
За разлика от своя предшественик AudioLM, SoundStorm използва нова архитектура, която генерира аудио на парчета от 30 секунди, повишавайки ефективността. Чрез използване на двупосочно внимание и базирано на увереност паралелно декодиране, моделът произвежда висококачествен звук, като същевременно значително намалява времето за генериране. На хардуера TPU-v4 на Google SoundStorm може да генерира 30 секунди аудио само за 0.5 секунди, отбелязвайки значително подобрение на скоростта.
Обучението на SoundStorm беше проведено с помощта на огромен набор от данни от 100,000 XNUMX часа диалог, осигуряващ стабилно разбиране на говоримите езикови модели. Моделът постига впечатляваща последователност в гласовите и акустични условия, като същевременно поддържа аудио качеството, постигнато от AudioLM. Този пробив прави SoundStorm два порядъка по-бърз от своя предшественик, демонстрирайки неговия потенциал за мащабируемо аудио генериране.
Една от ключовите възможности на SoundStorm е способността му да синтезира естествени диалози чрез използване на етапа на моделиране на текст към семантично на SPEAR-TTS. Чрез предоставяне на преписи със завои на високоговорителите и кратки гласови указания, потребителите могат да контролират изговореното съдържание и гласовете на високоговорителите. По време на тестването SoundStorm демонстрира способността да синтезира 30-секундни диалогови сегменти само за 2 секунди на един TPU-v4, демонстрирайки неговата ефективност и гъвкавост.
Гласово съобщение
Синтезиран диалог
В сравнение със стандартните базови линии, аудиото, генерирано от SoundStorm, е с еквивалентно качество на AudioLM и демонстрира превъзходна последователност и акустична цялост. За отбелязване е, че когато бъде подканен да даде проба на реч, моделът запазва гласа на говорещия с невероятна точност, което значително повишава способността му да генерира реалистичен диалог.
Въпреки че възможностите на SoundStorm са изключителни, критично е да се разпознае и разреши възможното етични проблеми. Данните за обучение на алгоритъма може да въведат отклонения, свързани с акценти и гласови характеристики. Способността да се имитират гласове може да бъде злоупотребена представяне или за заобикаляне на биометричната идентификация. Google подчертава значението на въвеждането на защита за предотвратяване на такава злоупотреба и осигуряване на откриваемост на създадено аудио чрез специални класификатори.
Етичните принципи на AI на Google ръководят непрекъснатите усилия за справяне с потенциалните опасности и ограничения. Организацията осъзнава необходимостта да направи задълбочено проучване на данните за обучение и последиците за резултатите от модела. Те също така планират да проучат допълнителни подходи, като аудио воден знак, за откриване на синтезирана реч, за да използват етично тази технология.
- SoundStorm е голяма крачка напред в задвижваното от AI аудио производство, осигурявайки висококачествени и ефективни аудио представяния, получени от невронни аудио кодеци. Google очаква, че по-ниските нужди от памет и обработка на SoundStorm ще направят изследванията за генериране на аудио по-достъпни за по-широка общност. Google остава посветена на запазването на отговорни AI практики и осигуряването на безопасно и отговорно използване на SoundStorm и сравними пробиви в областта с развитието на технологиите.
- ВАЛ-Е, най-новият модел на текст към реч (TTS) на Microsoft, е огромна стъпка напред в подобряването на начина, по който тези системи генерират глас. VALL-E е a TTS модел базирани на трансформатори, които могат да генерират реч с всеки глас, след като чуят само трисекундна проба от този глас. Това е голям напредък в сравнение с по-ранните модели, които изискваха значително по-дълъг период на обучение за разработване на нов глас.
Прочетете повече за AI:
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.
Още статииДамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.