Звіт про новини Технологія
Серпень 30, 2023

VALL-E X: найнебезпечніший шахрайський інструмент клонування голосу зі штучним інтелектом тепер із відкритим кодом

Коротко

Модель Microsoft VALL-E X zero-shot TTS була випущена з відкритим кодом, що дозволяє користувачам досліджувати розширений синтез тексту в мову та клонування голосу.

Модель підтримує вільний синтез мовлення англійською, китайською та японською мовами, нульове клонування голосу, контроль мовних емоцій, нульовий міжмовний синтез мовлення, контроль акценту та адаптацію акустичного середовища.

VALL-E X бездоганно працює як на центральному, так і на графічному процесорі, а для оптимальної продуктивності потрібна 6 ГБ відеопам’яті GPU.

Реалізація з відкритим кодом Було представлено модель TTS VALL-E X від Microsoft, дозволяючи користувачам заглибитися в сфери вдосконаленого синтезу тексту в мову та клонування голосу. Цей розвиток відбувається як розширення Початкова дослідницька стаття Microsoft, у якому не було коду чи попередньо навчених моделей, необхідних для практичного дослідження. З цим випуском технологічна спільнота отримує доступ до потужного інструменту для можливостей TTS наступного покоління.

VALL-E X: найнебезпечніший шахрайський інструмент клонування голосу зі штучним інтелектом тепер із відкритим кодом
VALL-E X: прорив у багатомовному синтезі тексту в мову та клонуванні голосу
споріднений: VALL-E від Microsoft видається найнебезпечнішим шахрайським програмним забезпеченням

VALL-E X — унікальна багатомовна модель синтезу мовлення, представлена ​​Microsoft. Хоча оригінальна дослідницька стаття була інформативною, їй бракувало практичного застосування через відсутність коду або попередньо навчених моделей. Щоб подолати цю прогалину, спеціальна команда взялася за відтворення результатів і навчання нашої власної моделі VALL-E X. Результати наших зусиль тепер доступні для громадськості, що дозволяє ширшій аудиторії відчути трансформаційний потенціал передової технології TTS.

VALL-E X відрізняється кількома новаторськими функціями:

  • Багатомовний TTS: Модель підтримує плавний синтез мовлення трьома мовами: англійською, китайською та японською. Користувачі можуть відчувати природний і виразний синтез мовлення цими мовами.
  • Клонування голосу з нуля: Записуючи короткий зразок голосу незнайомого оратора тривалістю від 3 до 10 секунд, VALL-E X має можливість генерувати персоналізовану високоякісну мову, яка відображає унікальні вокальні характеристики оратора.
  • Контроль мовних емоцій: VALL-E X може наповнювати синтезоване мовлення певними емоціями, додаючи рівень виразності аудіовиходу, який узгоджується з наданою акустичною підказкою.
  • Нульовий міжмовний синтез мовлення: Модель може створювати персоналізоване мовлення іншою мовою, зберігаючи плавність і акцент, розширюючи лінгвістичні горизонти одномовних носіїв.
  • Контроль акценту: VALL-E X пропонує експерименти з акцентом, дозволяючи користувачам створювати контент із різними акцентами, наприклад говорити китайською з англійським акцентом і навпаки.
  • Адаптація до акустичного середовища: Модель підтримує різні звукові підказки, адаптуючись до акустичного середовища вхідного сигналу, щоб забезпечити природне та захоплююче мовлення.

Крім того, VALL-E X розширює підтримку китайської та японської мов, демонструючи виняткову продуктивність усіма трьома мовами.

Це робить VALL-E X універсальним і ефективним інструментом підтримки мови для користувачів у різноманітних мовних середовищах.
споріднений: VALL-E: Нова модель Microsoft з нульовим ударом тексту в мову може дублювати голос кожного за три секунди

Можливості клонування голосу VALL-E X полегшують створення голосових підказок за допомогою голосу людини, персонажа або власного голосу. Зразок мовлення тривалістю від 3 до 10 секунд разом із розшифровкою — це все, що потрібно для створення чіткої голосової підказки. Зручний графічний інтерфейс ще більше спрощує взаємодію з VALL-E X, роблячи клонування голосу та багатомовний синтез мовлення доступними.

Примітно, що VALL-E X бездоганно працює як на ЦП, так і на ГП (pytorch 2.0+, CUDA 11.7 і CUDA 12.0). Ефективна конструкція моделі гарантує, що GPU VRAM об’ємом 6 ГБ достатньо для роботи без розвантаження.

У порівнянні з Модель Кора, VALL-E X пропонує кілька переваг:

  • Легший за вагою, займає лише 3/4 простору.
  • Підвищена ефективність завдяки 4-кратному збільшенню швидкості.
  • Найвища якість китайською та японською мовами.
  • Міжмовний синтез мовлення без іноземних акцентів.
  • Прості можливості клонування голосу.

Що стосується вимог до відеопам’яті, 6 ГБ GPU VRAM відповідає критеріям для ефективної роботи VALL-E X. Однак для генерації довшого тексту загальна тривалість звукової підказки та створеного аудіо має залишатися меншою за 22 секунди, щоб забезпечити оптимальну продуктивність.

Ліцензування VALL-E X із відкритим вихідним кодом, що регулюється ліцензією MIT, означає нову еру доступності та досліджень у сфері багатомовного синтезу тексту в мову та клонування голосу.

Докладніше про ШІ:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Від Ripple до The Big Green DAO: як криптовалютні проекти сприяють благодійності

Давайте розглянемо ініціативи, які використовують потенціал цифрових валют для благодійних цілей.

Дізнайтеся більше

AlphaFold 3, Med-Gemini та інші: як AI трансформує охорону здоров’я у 2024 році

ШІ проявляється різними способами в охороні здоров’я, від виявлення нових генетичних кореляцій до розширення можливостей роботизованих хірургічних систем...

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Crypto Exchange Jupiter представить Jupiter Swap V3, Dynamic Slippage та інші ключові оновлення в найближчі тижні
ринки Звіт про новини Технологія
Crypto Exchange Jupiter представить Jupiter Swap V3, Dynamic Slippage та інші ключові оновлення в найближчі тижні
14 Червня, 2024.
Polygon дебютує як центр управління, що забезпечує єдиний прозорий інтерфейс для управління спільнотою
Звіт про новини Технологія
Polygon дебютує як центр управління, що забезпечує єдиний прозорий інтерфейс для управління спільнотою 
14 Червня, 2024.
Binance зареєструвала понад 30 мільйонів нових користувачів у 2024 році, активи клієнтів перевищили позначку в 100 мільярдів доларів
ринки Звіт про новини Технологія
Binance зареєструвала понад 30 мільйонів нових користувачів у 2024 році, активи клієнтів перевищили позначку в 100 мільярдів доларів
14 Червня, 2024.
Amazon підтримує стартапи Generative AI, інвестувавши 230 мільйонів доларів, виділяє 80 мільйонів доларів на свою другу програму AWS Generative AI Accelerator
Business Звіт про новини Технологія
Amazon підтримує стартапи Generative AI, інвестувавши 230 мільйонів доларів, виділяє 80 мільйонів доларів на свою другу програму AWS Generative AI Accelerator
14 Червня, 2024.
CRYPTOMERIA LABS PTE. LTD.