VALL-E: Новият модел на Microsoft zero-shot text-to-speech може да дублира гласа на всеки за три секунди
Накратко
Само с трисекундна проба от всеки глас, моделът TTS, базиран на трансформатор VALL-E може да произвежда реч с всеки глас.
Това е значителен напредък в посока към по-естествено звучащи TTS системи.
Microsoft обаче предостави няколко проби от използвания модел и е очевидно, че това представлява значително развитие в технологията TTS.
След пускането на първия модел текст към реч (TTS), изследователите търсят начини да подобрят начина, по който тези системи генерират реч. Най-новият модел на Microsoft, ВАЛ-Е, е значителна стъпка напред в това отношение.
VALL-E е базиран на трансформатор TTS модел, който може да генерира реч във всеки глас, след като чуе само трисекундна проба от този глас. Това е значително подобрение спрямо предишните модели, които изискваха много по-дълъг период на обучение, за да се генерира нов глас.
Свързана статия: Microsoft пусна дифузионен модел, който може да изгради 3D аватар от една снимка на човек |
Освен това интонацията, харизмата и стилът на гласа се запазват непокътнати в генерираната реч. Това е важна стъпка напред към превръщането на TTS системите в по-естествен звук.
Този модел е базиран на трансформатор и има външен вид Dale-1. Да не се бърка с базирания на дифузия Dalle-2. Кодът все още липсва. И потребителите имат известен скептицизъм, че ще го публикуват.
Microsoft обаче пусна няколко примера на модела в действие и е ясно, че това е голям напредък в TTS технологията.
Пример #1:
Пример #2:
Пример #3:
Прочетете повече за AI:
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.
Още статииДамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.