Звіт про новини ТПВ Технологія
Травень 30, 2023

SoundStorm: Google представляє жахливий інструмент штучного інтелекту, здатний відтворювати голос у реальному часі

Коротко

Google представив SoundStorm, передову модель для ефективного генерування аудіо без авторегресії.

Він використовує двонаправлену увагу та паралельне декодування на основі достовірності для генерації високоякісного аудіо при значному скороченні часу генерації.

Він також має здатність синтезувати природні діалоги.

Компанія Google представила свій останній прорив у технології штучного інтелекту SoundStorm, передова модель для ефективного генерування аудіо без авторегресії. Зі здатністю до синтезувати діалоги з різними голосами, SoundStorm відкриває нові можливості для таких програм, як створення аудіовмісту з написаного тексту та створення реалістичних подкастів.

SoundStorm: Google представляє жахливий інструмент штучного інтелекту, здатний відтворювати голос у реальному часі
@Midjourney

На відміну від свого попередника AudioLM, SoundStorm використовує нову архітектуру, яка генерує аудіо фрагментами по 30 секунд, підвищуючи ефективність. Завдяки використанню двонаправленої уваги та паралельного декодування на основі достовірності, модель створює високоякісний звук, значно скорочуючи час генерації. На апаратному забезпеченні Google TPU-v4 SoundStorm може генерувати 30 секунд аудіо лише за 0.5 секунди, що свідчить про значне підвищення швидкості.

Навчання SoundStorm проводилося з використанням величезного набору даних із 100,000 XNUMX годин діалогу, що гарантувало надійне розуміння шаблонів розмовної мови. Модель забезпечує вражаючу узгодженість голосових і акустичних умов, зберігаючи якість звуку, досягнуту AudioLM. Цей прорив робить SoundStorm на два порядки швидшим, ніж його попередник, демонструючи його потенціал для масштабованого створення аудіо.

Однією з ключових можливостей SoundStorm є його здатність синтезувати природні діалоги, використовуючи етап моделювання тексту в семантику SPEAR-TTS. Надаючи стенограми з чергами доповідачів і короткими голосовими підказками, користувачі можуть контролювати промовлений вміст і голоси доповідачів. Під час тестування SoundStorm продемонстрував здатність синтезувати 30-секундні сегменти діалогу всього за 2 секунди на одному TPU-v4, демонструючи його ефективність і універсальність.

Голосовий дзвінок

Синтезований діалог

У порівнянні зі стандартними базовими лініями, аудіо, створене SoundStorm, має еквівалентну якість AudioLM і демонструє чудову послідовність і акустичну цілісність. Примітно, що коли з’являється запит надати зразок мовлення, модель зберігає голос мовця з неймовірною точністю, значно підвищуючи його здатність генерувати реалістичний діалог.

Хоча можливості SoundStorm є видатними, важливо розпізнати та вирішити можливе етичні проблеми. Навчальні дані для алгоритму можуть вводити упередження, пов’язані з акцентами та особливостями голосу. Здатністю до імітації голосів можна зловживати видання себе або для обходу біометричної ідентифікації. Google наголошує на важливості встановлення засобів захисту для запобігання таким зловживанням забезпечення виявленості створеного аудіо за допомогою спеціальних класифікаторів.

Етичні принципи штучного інтелекту Google керують її постійними зусиллями щодо усунення потенційних небезпек і обмежень. Організація усвідомлює необхідність ретельного вивчення навчальних даних і наслідків для результатів моделі. Вони також планують вивчити додаткові підходи, такі як аудіо водяні знаки, для виявлення синтезованого мовлення, щоб етичне використання цієї технології.

  • SoundStorm — це великий крок вперед у виробництві аудіо на основі штучного інтелекту, що забезпечує високоякісне та ефективне представлення аудіо на основі нейронних аудіокодеків. Google очікує, що менші потреби SoundStorm у пам’яті та обробці зроблять дослідження створення аудіофайлів доступнішими для широкої спільноти. Google продовжує підтримувати відповідальні практики штучного інтелекту та забезпечувати безпечне та відповідальне використання SoundStorm і порівнянних проривів у цій галузі з розвитком технологій.
  • ВАЛЛ-Е, остання модель перетворення тексту в мовлення (TTS) від Microsoft, є величезним кроком вперед у покращенні того, як ці системи генерують голос. VALL-E - це a Модель TTS на основі трансформаторів, які можуть генерувати мову будь-яким голосом після того, як ви почуєте трисекундний зразок цього голосу. Це великий прогрес у порівнянні з попередніми моделями, які вимагали значно довшого періоду навчання для розробки нового голосу.

Докладніше про ШІ:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Від Ripple до The Big Green DAO: як криптовалютні проекти сприяють благодійності

Давайте розглянемо ініціативи, які використовують потенціал цифрових валют для благодійних цілей.

Дізнайтеся більше

AlphaFold 3, Med-Gemini та інші: як AI трансформує охорону здоров’я у 2024 році

ШІ проявляється різними способами в охороні здоров’я, від виявлення нових генетичних кореляцій до розширення можливостей роботизованих хірургічних систем...

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Crypto Exchange Jupiter представить Jupiter Swap V3, Dynamic Slippage та інші ключові оновлення в найближчі тижні
ринки Звіт про новини Технологія
Crypto Exchange Jupiter представить Jupiter Swap V3, Dynamic Slippage та інші ключові оновлення в найближчі тижні
14 Червня, 2024.
Polygon дебютує як центр управління, що забезпечує єдиний прозорий інтерфейс для управління спільнотою
Звіт про новини Технологія
Polygon дебютує як центр управління, що забезпечує єдиний прозорий інтерфейс для управління спільнотою 
14 Червня, 2024.
Binance зареєструвала понад 30 мільйонів нових користувачів у 2024 році, активи клієнтів перевищили позначку в 100 мільярдів доларів
ринки Звіт про новини Технологія
Binance зареєструвала понад 30 мільйонів нових користувачів у 2024 році, активи клієнтів перевищили позначку в 100 мільярдів доларів
14 Червня, 2024.
Amazon підтримує стартапи Generative AI, інвестувавши 230 мільйонів доларів, виділяє 80 мільйонів доларів на свою другу програму AWS Generative AI Accelerator
Business Звіт про новини Технологія
Amazon підтримує стартапи Generative AI, інвестувавши 230 мільйонів доларів, виділяє 80 мільйонів доларів на свою другу програму AWS Generative AI Accelerator
14 Червня, 2024.
CRYPTOMERIA LABS PTE. LTD.