VALL-E: новая модель преобразования текста в речь Microsoft с нулевым выстрелом может дублировать голос каждого за три секунды
Коротко
Трансформаторная модель TTS позволяет использовать всего лишь трехсекундный образец любого голоса. ВАЛЛ-И может произносить речь любым голосом..
Это значительный шаг вперед в направлении создания более естественно звучащих систем TTS.
Однако корпорация Майкрософт предоставила несколько образцов используемой модели, и очевидно, что это представляет собой значительный шаг вперед в технологии TTS.
С момента выпуска первой модели преобразования текста в речь (TTS) исследователи искали способы улучшить способ, которым эти системы генерируют речь. Последняя модель от Microsoft, ВАЛЛ-Э, является значительным шагом вперед в этом отношении.
VALL-E — это модель TTS на основе преобразователя, которая может генерировать речь любым голосом после прослушивания только трехсекундного фрагмента этого голоса. Это значительное улучшение по сравнению с предыдущими моделями, которым требовался гораздо более длительный период обучения для создания нового голоса.
Связанная статья: Microsoft выпустила диффузионную модель, которая может построить 3D-аватар из одной фотографии человека. |
Кроме того, интонация, харизма и стиль голоса сохраняются в сгенерированной речи. Это важный шаг вперед в обеспечении более естественного звучания систем TTS.
Эта модель основана на трансформере и имеет внешний вид Дейла-1. Не путать с диффузионным Dalle-2. Кода по-прежнему не хватает. И у пользователей есть некоторый скептицизм, что они это опубликуют.
Связанная статья: VALL-E от Microsoft — самая опасная мошенническая программа |
Однако Microsoft выпустила несколько примеров модели в действии, и стало ясно, что это большой шаг вперед в технологии TTS.
Пример # 1:
Пример #2:
Пример # 3:
Подробнее об ИИ:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.