VALL-E: Нова модель Microsoft з нульовим ударом тексту в мову може дублювати голос кожного за три секунди
Коротко
З лише трисекундним зразком будь-якого голосу, модель TTS на основі трансформатора VALL-E може відтворювати мову будь-яким голосом.
Це значний прогрес у напрямку більш природного звучання систем TTS.
Однак корпорація Майкрософт надала кілька зразків використовуваної моделі, і очевидно, що це є значним прогресом у технології TTS.
З моменту випуску першої моделі синтезу мовлення (TTS) дослідники шукали способи покращити спосіб генерування мовлення цими системами. Остання модель від Microsoft, ВАЛЛ-Е, є значним кроком вперед у цьому відношенні.
VALL-E — це модель TTS на основі трансформатора, яка може генерувати мову будь-яким голосом, прослухавши лише трисекундний зразок цього голосу. Це значне вдосконалення в порівнянні з попередніми моделями, які вимагали значно довшого періоду навчання, щоб створити новий голос.
Пов'язана стаття: Корпорація Майкрософт випустила дифузійну модель, яка може створити 3D-аватар з однієї фотографії людини |
Крім того, інтонація, харизма та стиль голосу залишаються незмінними у створеній промові. Це важливий крок вперед у тому, щоб зробити звучання систем TTS більш природним.
Ця модель заснована на трансформаторі і має зовнішній вигляд Dale-1. Не плутати з дифузійним Dalle-2. Коду ще немає. І користувачі сумніваються, що вони його опублікують.
Пов'язана стаття: VALL-E від Microsoft видається найнебезпечнішим шахрайським програмним забезпеченням |
Однак Microsoft опублікувала кілька прикладів моделі в дії, і очевидно, що це великий прогрес у технології TTS.
Приклад # 1:
Приклад #2:
Приклад # 3:
Докладніше про ШІ:
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.
інші статтіДамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.