Звіт про новини ТПВ Технологія
Травень 30, 2023

SoundStorm: Google представляє жахливий інструмент штучного інтелекту, здатний відтворювати голос у реальному часі

Коротко

Google представив SoundStorm, передову модель для ефективного генерування аудіо без авторегресії.

Він використовує двонаправлену увагу та паралельне декодування на основі достовірності для генерації високоякісного аудіо при значному скороченні часу генерації.

Він також має здатність синтезувати природні діалоги.

Компанія Google представила свій останній прорив у технології штучного інтелекту SoundStorm, передова модель для ефективного генерування аудіо без авторегресії. Зі здатністю до синтезувати діалоги з різними голосами, SoundStorm відкриває нові можливості для таких програм, як створення аудіовмісту з написаного тексту та створення реалістичних подкастів.

SoundStorm: Google представляє жахливий інструмент штучного інтелекту, здатний відтворювати голос у реальному часі
@Midjourney

На відміну від свого попередника AudioLM, SoundStorm використовує нову архітектуру, яка генерує аудіо фрагментами по 30 секунд, підвищуючи ефективність. Завдяки використанню двонаправленої уваги та паралельного декодування на основі достовірності, модель створює високоякісний звук, значно скорочуючи час генерації. На апаратному забезпеченні Google TPU-v4 SoundStorm може генерувати 30 секунд аудіо лише за 0.5 секунди, що свідчить про значне підвищення швидкості.

Навчання SoundStorm проводилося з використанням величезного набору даних із 100,000 XNUMX годин діалогу, що гарантувало надійне розуміння шаблонів розмовної мови. Модель забезпечує вражаючу узгодженість голосових і акустичних умов, зберігаючи якість звуку, досягнуту AudioLM. Цей прорив робить SoundStorm на два порядки швидшим, ніж його попередник, демонструючи його потенціал для масштабованого створення аудіо.

Однією з ключових можливостей SoundStorm є його здатність синтезувати природні діалоги, використовуючи етап моделювання тексту в семантику SPEAR-TTS. Надаючи стенограми з чергами доповідачів і короткими голосовими підказками, користувачі можуть контролювати промовлений вміст і голоси доповідачів. Під час тестування SoundStorm продемонстрував здатність синтезувати 30-секундні сегменти діалогу всього за 2 секунди на одному TPU-v4, демонструючи його ефективність і універсальність.

Голосовий дзвінок

Синтезований діалог

У порівнянні зі стандартними базовими лініями, аудіо, створене SoundStorm, має еквівалентну якість AudioLM і демонструє чудову послідовність і акустичну цілісність. Примітно, що коли з’являється запит надати зразок мовлення, модель зберігає голос мовця з неймовірною точністю, значно підвищуючи його здатність генерувати реалістичний діалог.

Хоча можливості SoundStorm є видатними, важливо розпізнати та вирішити можливе етичні проблеми. Навчальні дані для алгоритму можуть вводити упередження, пов’язані з акцентами та особливостями голосу. Здатністю до імітації голосів можна зловживати видання себе або для обходу біометричної ідентифікації. Google наголошує на важливості встановлення засобів захисту для запобігання таким зловживанням забезпечення виявленості створеного аудіо за допомогою спеціальних класифікаторів.

Етичні принципи штучного інтелекту Google керують її постійними зусиллями щодо усунення потенційних небезпек і обмежень. Організація усвідомлює необхідність ретельного вивчення навчальних даних і наслідків для результатів моделі. Вони також планують вивчити додаткові підходи, такі як аудіо водяні знаки, для виявлення синтезованого мовлення, щоб етичне використання цієї технології.

  • SoundStorm — це великий крок вперед у виробництві аудіо на основі штучного інтелекту, що забезпечує високоякісне та ефективне представлення аудіо на основі нейронних аудіокодеків. Google очікує, що менші потреби SoundStorm у пам’яті та обробці зроблять дослідження створення аудіофайлів доступнішими для широкої спільноти. Google продовжує підтримувати відповідальні практики штучного інтелекту та забезпечувати безпечне та відповідальне використання SoundStorm і порівнянних проривів у цій галузі з розвитком технологій.
  • ВАЛЛ-Е, остання модель перетворення тексту в мовлення (TTS) від Microsoft, є величезним кроком вперед у покращенні того, як ці системи генерують голос. VALL-E - це a Модель TTS на основі трансформаторів, які можуть генерувати мову будь-яким голосом після того, як ви почуєте трисекундний зразок цього голосу. Це великий прогрес у порівнянні з попередніми моделями, які вимагали значно довшого періоду навчання для розробки нового голосу.

Докладніше про ШІ:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Настав день винесення вироку: суд США розглядає прохання Міністерства юстиції щодо долі CZ.

Changpeng Zhao готовий зіткнутися з вироком у американському суді в Сіетлі сьогодні.

Дізнайтеся більше

Засновників гаманця Samourai Wallet звинувачують у сприянні угодам у Darknet на суму 2 мільярди доларів

Занепокоєння засновників гаманця Samourai Wallet є помітною невдачею для галузі, підкреслюючи постійне...

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Pantera Capital інвестує в блокчейн TON, висловлює впевненість у потенціалі Telegram розширити доступність криптовалют
Business Звіт про новини Технологія
Pantera Capital інвестує в блокчейн TON, висловлює впевненість у потенціалі Telegram розширити доступність криптовалют
Травень 2, 2024
Mitosis залучає 7 мільйонів доларів США від Amber Group і Foresight Ventures для вдосконалення свого модульного протоколу ліквідності
Business Звіт про новини Технологія
Mitosis залучає 7 мільйонів доларів США від Amber Group і Foresight Ventures для вдосконалення свого модульного протоколу ліквідності
Травень 2, 2024
Galxe співпрацює з Jambo для розширення глобальної доступності Web3
Business Звіт про новини Технологія
Galxe співпрацює з Jambo для розширення глобальної доступності Web3
Травень 2, 2024
Google Med-Gemini готовий дати перевагу GPT-4 Завдяки чудовій ефективності в охороні здоров’я
AI Wiki Новини Софтвер Технологія
Google Med-Gemini готовий дати перевагу GPT-4 Завдяки чудовій ефективності в охороні здоров’я
Травень 2, 2024
CRYPTOMERIA LABS PTE. LTD.