Новини SMW Технологии
Май 30, 2023

SoundStorm: Google разкрива ужасяващ AI инструмент, способен да репликира глас в реално време

Накратко

Google представи SoundStorm, авангарден модел за ефективно и неавторегресивно аудио генериране.

Той използва двупосочно внимание и базирано на увереност паралелно декодиране, за да генерира висококачествено аудио, като същевременно значително намалява времето за генериране.

Освен това има способността да синтезира естествени диалози.

Google представи най-новия си пробив в технологията за изкуствен интелект с SoundStorm, авангарден модел за ефективно и неавторегресивно аудио генериране. Със способността да синтезирайте диалози с различни гласове, SoundStorm отваря нови възможности за приложения като генериране на аудио съдържание от писмен текст и създаване на реалистични подкасти.

SoundStorm: Google разкрива ужасяващ AI инструмент, способен да репликира глас в реално време
@Midjourney

За разлика от своя предшественик AudioLM, SoundStorm използва нова архитектура, която генерира аудио на парчета от 30 секунди, повишавайки ефективността. Чрез използване на двупосочно внимание и базирано на увереност паралелно декодиране, моделът произвежда висококачествен звук, като същевременно значително намалява времето за генериране. На хардуера TPU-v4 на Google SoundStorm може да генерира 30 секунди аудио само за 0.5 секунди, отбелязвайки значително подобрение на скоростта.

Обучението на SoundStorm беше проведено с помощта на огромен набор от данни от 100,000 XNUMX часа диалог, осигуряващ стабилно разбиране на говоримите езикови модели. Моделът постига впечатляваща последователност в гласовите и акустични условия, като същевременно поддържа аудио качеството, постигнато от AudioLM. Този пробив прави SoundStorm два порядъка по-бърз от своя предшественик, демонстрирайки неговия потенциал за мащабируемо аудио генериране.

Една от ключовите възможности на SoundStorm е способността му да синтезира естествени диалози чрез използване на етапа на моделиране на текст към семантично на SPEAR-TTS. Чрез предоставяне на преписи със завои на високоговорителите и кратки гласови указания, потребителите могат да контролират изговореното съдържание и гласовете на високоговорителите. По време на тестването SoundStorm демонстрира способността да синтезира 30-секундни диалогови сегменти само за 2 секунди на един TPU-v4, демонстрирайки неговата ефективност и гъвкавост.

Гласово съобщение

Синтезиран диалог

В сравнение със стандартните базови линии, аудиото, генерирано от SoundStorm, е с еквивалентно качество на AudioLM и демонстрира превъзходна последователност и акустична цялост. За отбелязване е, че когато бъде подканен да даде проба на реч, моделът запазва гласа на говорещия с невероятна точност, което значително повишава способността му да генерира реалистичен диалог.

Въпреки че възможностите на SoundStorm са изключителни, критично е да се разпознае и разреши възможното етични проблеми. Данните за обучение на алгоритъма може да въведат отклонения, свързани с акценти и гласови характеристики. Способността да се имитират гласове може да бъде злоупотребена представяне или за заобикаляне на биометричната идентификация. Google подчертава значението на въвеждането на защита за предотвратяване на такава злоупотреба и осигуряване на откриваемост на създадено аудио чрез специални класификатори.

Етичните принципи на AI на Google ръководят непрекъснатите усилия за справяне с потенциалните опасности и ограничения. Организацията осъзнава необходимостта да направи задълбочено проучване на данните за обучение и последиците за резултатите от модела. Те също така планират да проучат допълнителни подходи, като аудио воден знак, за откриване на синтезирана реч, за да използват етично тази технология.

  • SoundStorm е голяма крачка напред в задвижваното от AI аудио производство, осигурявайки висококачествени и ефективни аудио представяния, получени от невронни аудио кодеци. Google очаква, че по-ниските нужди от памет и обработка на SoundStorm ще направят изследванията за генериране на аудио по-достъпни за по-широка общност. Google остава посветена на запазването на отговорни AI практики и осигуряването на безопасно и отговорно използване на SoundStorm и сравними пробиви в областта с развитието на технологиите.
  • ВАЛ-Е, най-новият модел на текст към реч (TTS) на Microsoft, е огромна стъпка напред в подобряването на начина, по който тези системи генерират глас. VALL-E е a TTS модел базирани на трансформатори, които могат да генерират реч с всеки глас, след като чуят само трисекундна проба от този глас. Това е голям напредък в сравнение с по-ранните модели, които изискваха значително по-дълъг период на обучение за разработване на нов глас.

Прочетете повече за AI:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Още статии
Дамир Ялалов
Дамир Ялалов

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Hot Stories
Присъединете се към нашия бюлетин.
Последни новини

Пристига денят на присъдата: Съдбата на CZ виси на равновесие, докато американският съд разглежда молбата на DOJ

Changpeng Zhao е готов да бъде осъден днес в американски съд в Сиатъл.

Научете още

Основателите на портфейла Samourai са обвинени в улесняване на $2 милиарда в Darknet сделки

Заплахата от страна на основателите на портфейла Samourai Wallet представлява забележителна неуспех за индустрията, подчертавайки постоянните...

Научете още
Присъединете се към нашата иновативна техническа общност
Вижте повече
Прочети повече
Pantera Capital инвестира в TON Blockchain, изразява увереност в потенциала на Telegram за разширяване на крипто достъпността
Бизнес Новини Технологии
Pantera Capital инвестира в TON Blockchain, изразява увереност в потенциала на Telegram за разширяване на крипто достъпността
Май 2, 2024
Mitosis набира $7 милиона финансиране от Amber Group и Foresight Ventures, за да усъвършенства модулния си протокол за ликвидност
Бизнес Новини Технологии
Mitosis набира $7 милиона финансиране от Amber Group и Foresight Ventures, за да усъвършенства модулния си протокол за ликвидност
Май 2, 2024
Galxe си партнира с Jambo, за да разшири глобалната достъпност до Web3
Бизнес Новини Технологии
Galxe си партнира с Jambo, за да разшири глобалната достъпност до Web3
Май 2, 2024
Google Med-Gemini е готов да даде преднина на GPT-4 С превъзходното си представяне в здравеопазването
AI Wiki Статии Софтуер Технологии
Google Med-Gemini е готов да даде преднина на GPT-4 С превъзходното си представяне в здравеопазването
Май 2, 2024
CRYPTOMERIA LABS PTE. LTD.