Новостной репортаж СМЗ Технологии
30 мая 2023

SoundStorm: Google представляет ужасающий инструмент искусственного интеллекта, способный воспроизводить голос в реальном времени

Коротко

Google представила SoundStorm, передовую модель для эффективной и неавторегрессивной генерации звука.

Он использует двунаправленное внимание и параллельное декодирование на основе достоверности для создания высококачественного звука при значительном сокращении времени генерации.

Он также имеет возможность синтезировать естественные диалоги.

Google представила свой последний прорыв в технологии искусственного интеллекта с Саундсторм, передовая модель для эффективной и неавторегрессивной генерации звука. С возможностью синтезировать диалоги с разными голосами, SoundStorm открывает новые возможности для таких приложений, как создание аудиоконтента из письменного текста и создание реалистичных подкастов.

SoundStorm: Google представляет ужасающий инструмент искусственного интеллекта, способный воспроизводить голос в реальном времени
@Midjourney

В отличие от своего предшественника АудиоLM, SoundStorm использует новую архитектуру, которая генерирует звук фрагментами по 30 секунд, повышая эффективность. Используя двунаправленное внимание и параллельное декодирование на основе достоверности, модель обеспечивает высококачественный звук при значительном сокращении времени генерации. На оборудовании Google TPU-v4 SoundStorm может генерировать 30-секундный звук всего за 0.5 секунды, что означает значительное улучшение скорости.

Обучение SoundStorm проводилось с использованием огромного набора данных из 100,000 XNUMX часов диалогов, что обеспечило четкое понимание моделей разговорной речи. Модель обеспечивает впечатляющую согласованность голоса и акустических условий при сохранении качества звука, достигнутого AudioLM. Этот прорыв делает SoundStorm на два порядка быстрее, чем его предшественник, демонстрируя его потенциал для масштабируемой генерации звука.

Одной из ключевых возможностей SoundStorm является его способность синтезировать естественные диалоги, используя этап преобразования текста в семантику SPEAR-TTS. Предоставляя стенограммы с поворотами динамиков и короткими голосовыми подсказками, пользователи могут управлять разговорным контентом и голосами динамиков. Во время тестирования SoundStorm продемонстрировал способность синтезировать 30-секундные сегменты диалога всего за 2 секунды на одном TPU-v4, продемонстрировав свою эффективность и универсальность.

Голосовая подсказка

Синтезированный диалог

По сравнению со стандартными базовыми показателями звук, генерируемый SoundStorm, имеет такое же качество, что и AudioLM, и демонстрирует превосходную согласованность и акустическую целостность. Примечательно, что при запросе образца речи модель сохраняет голос говорящего с удивительной точностью, что значительно повышает его способность генерировать реалистичные диалоги.

Хотя возможности SoundStorm выдающиеся, очень важно распознавать и решать возможные проблемы. этические проблемы. Данные обучения для алгоритма могут вносить предвзятости, связанные с акцентами и особенностями голоса. Способностью имитировать голоса можно злоупотреблять олицетворение или обойти биометрическую идентификацию. Google подчеркивает важность обеспечения защиты для предотвращения таких злоупотреблений и обеспечение обнаруживаемости созданного аудио через специальные классификаторы.

Этические принципы искусственного интеллекта Google определяют постоянные усилия по устранению потенциальных опасностей и ограничений. Организация осознает необходимость тщательного изучения обучающих данных и последствий для выходных данных модели. Они также планируют исследовать дополнительные подходы, такие как звуковые водяные знаки, для обнаружения синтезированной речи, чтобы этично использовать эту технологию.

  • SoundStorm — это большой шаг вперед в производстве аудио на основе ИИ, обеспечивающий высококачественное и эффективное представление звука на основе нейронных аудиокодеков. Google ожидает, что меньшие потребности SoundStorm в памяти и обработке сделают исследования в области генерации звука более доступными для более широкого сообщества. Google по-прежнему привержен сохранению ответственных методов искусственного интеллекта и обеспечению безопасного и ответственного использования SoundStorm и сопоставимых прорывов в этой области по мере развития технологий.
  • ВАЛЛ-Э, новейшая модель преобразования текста в речь (TTS) от Microsoft, представляет собой огромный шаг вперед в улучшении того, как эти системы генерируют голос. ВАЛЛ-Э – это модель ТТС на основе преобразователей, которые могут генерировать речь любым голосом, услышав всего лишь трехсекундный образец этого голоса. Это большой шаг вперед по сравнению с более ранними моделями, которые требовали значительно более длительного периода обучения для выработки нового голоса.

Подробнее об ИИ:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше

Основателей Samourai Wallet обвиняют в содействии сделкам в даркнете на 2 миллиарда долларов

Задержание основателей Samourai Wallet представляет собой заметную неудачу для отрасли, подчеркивая упорное...

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
AltLayer вступает во вторую фазу своей инициативы по стейкингу и представляет токен reALT
Области применения: Новостной репортаж Технологии
AltLayer вступает во вторую фазу своей инициативы по стейкингу и представляет токен reALT
2 мая 2024
Сеть BNB опубликовала отчет за первый квартал 1 года, в котором подчеркивается сокращение потерь стоимости на 2024%, в то время как TVL BSC взлетает на 55.8%
Области применения: Новостной репортаж Технологии
Сеть BNB опубликовала отчет за первый квартал 1 года, в котором подчеркивается сокращение потерь стоимости на 2024%, в то время как TVL BSC взлетает на 55.8%
2 мая 2024
Naver и Kaia из Kakao: новый азиатский блокчейн-гигант, готовый разрушить глобальные рынки криптовалют
Бизнес Software Истории и обзоры Технологии
Naver и Kaia из Kakao: новый азиатский блокчейн-гигант, готовый разрушить глобальные рынки криптовалют
2 мая 2024
Aave Labs представляет предложение «Aave 2030», включая запуск протокола Aave V4
Бизнес Новостной репортаж Технологии
Aave Labs представляет предложение «Aave 2030», включая запуск протокола Aave V4
2 мая 2024
CRYPTOMERIA LABS PTE. ООО