Новостной репортаж Технологии
30 августа 2023

VALL-E X: самый опасный мошеннический инструмент клонирования голоса с искусственным интеллектом теперь с открытым исходным кодом

Коротко

Модель TTS с нулевым выстрелом VALL-E X от Microsoft была выпущена с открытым исходным кодом, что позволяет пользователям исследовать расширенный синтез текста в речь и клонирование голоса.

Модель поддерживает беглый синтез речи на английском, китайском и японском языках, нулевое клонирование голоса, контроль речевых эмоций, межъязыковый синтез речи с нулевым звучанием, контроль акцента и адаптацию к акустической среде.

VALL-E X бесперебойно работает как на процессоре, так и на графическом процессоре, а для оптимальной производительности требуется 6 ГБ видеопамяти графического процессора.

Реализация с открытым исходным кодом Microsoft представила модель TTS с нулевым выстрелом VALL-E X, что позволяет пользователям погрузиться в области расширенного синтеза речи и клонирования голоса. Это развитие происходит как расширение Первоначальный исследовательский документ Microsoft, в котором отсутствовал код или предварительно обученные модели, необходимые для практического исследования. Благодаря этому выпуску технологическое сообщество получает доступ к мощному инструменту для реализации возможностей TTS нового поколения.

VALL-E X: самый опасный мошеннический инструмент клонирования голоса с искусственным интеллектом теперь с открытым исходным кодом
VALL-E X: прорыв в области многоязычного синтеза речи и клонирования голоса
Похожие страницы:: VALL-E от Microsoft — самая опасная мошенническая программа

VALL-E X — это исключительная многоязычная модель преобразования текста в речь, представленная Microsoft. Хотя первоначальная исследовательская работа была информативной, ей не хватало практического применения из-за отсутствие кода или предварительно обученных моделей. Чтобы восполнить этот пробел, специальная команда взяла на себя задачу воспроизвести результаты и обучить нашу собственную модель VALL-E X. Результат наших усилий теперь доступен публике, что позволяет более широкой аудитории ощутить преобразующий потенциал передовой технологии TTS.

VALL-E X отличается несколькими революционными функциями:

  • Многоязычный TTS: Модель поддерживает свободный синтез речи на трех языках: английском, китайском и японском. Пользователи могут испытать естественный и выразительный синтез речи на этих языках.
  • Клонирование голоса с нулевым выстрелом: Записывая короткий образец голоса незнакомого говорящего длительностью от 3 до 10 секунд, VALL-E X способен генерировать персонализированную высококачественную речь, отражающую уникальные вокальные характеристики говорящего.
  • Речевой контроль эмоций: VALL-E X может наполнить синтезированную речь определенными эмоциями, добавляя уровень выразительности аудиовыходу, который соответствует предоставленной акустической подсказке.
  • Нулевой синтез межъязыковой речи: Модель может воспроизводить персонализированную речь на другом языке, сохраняя при этом беглость и акцент, расширяя лингвистический кругозор одноязычных носителей.
  • Управление акцентом: VALL-E X предлагает эксперименты с акцентами, позволяя пользователям создавать контент с различными акцентами, например говорить по-китайски с английским акцентом и наоборот.
  • Адаптация к акустической среде: Модель поддерживает различные звуковые подсказки, адаптируясь к акустической среде ввода, обеспечивая естественное и захватывающее воспроизведение речи.

Более того, VALL-E X расширяет поддержку китайского и японского языков, обеспечивая исключительную производительность на всех трех языках.

Это делает VALL-E X универсальным и эффективным инструментом языковой поддержки для пользователей в различных языковых средах.
Похожие страницы:: VALL-E: новая модель преобразования текста в речь Microsoft с нулевым выстрелом может дублировать голос каждого за три секунды

Возможности клонирования голоса VALL-E X облегчают создание голосовых подсказок с использованием голоса человека, персонажа или собственного голоса. Образец речи продолжительностью от 3 до 10 секунд вместе с расшифровкой — это все, что нужно для создания четкой голосовой подсказки. Удобный графический интерфейс еще больше упрощает взаимодействие с VALL-E X, делая клонирование голоса и многоязычный синтез речи доступным занятием.

Примечательно, что VALL-E X безупречно работает как на процессоре, так и на графическом процессоре (pytorch 2.0+, CUDA 11.7 и CUDA 12.0). Эффективная конструкция модели гарантирует, что видеопамяти графического процессора объемом 6 ГБ достаточно для работы без разгрузки.

По сравнению с Модель коры, VALL-E X предлагает ряд преимуществ:

  • Легче по весу, занимает всего 3/4 места.
  • Повышенная эффективность за счет увеличения скорости в 4 раза.
  • Превосходное качество на китайском и японском языках.
  • Межъязыковой синтез речи без иностранных акцентов.
  • Простые возможности клонирования голоса.

Что касается требований к видеопамяти, то видеопамять графического процессора емкостью 6 ГБ соответствует критериям эффективной работы VALL-E X. Однако для генерации более длинного текста общая длина звукового приглашения и сгенерированного звука должна оставаться ниже 22 секунд, чтобы обеспечить оптимальную производительность.

Лицензирование VALL-E X с открытым исходным кодом, регулируемое лицензией MIT, означает новую эру доступности и исследований в области многоязычного синтеза речи и клонирования голоса.

Подробнее об ИИ:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Институциональный аппетит к биткойн-ETF растет на фоне волатильности

Раскрытие информации через отчеты 13F показывает, что известные институциональные инвесторы балуются биткойн-ETF, подчеркивая растущее признание...

Узнать больше

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
zkSync представит P256Verify, Bridgehub и Valdiums, поддерживающие расширенные функции в следующем обновлении
Новостной репортаж Технологии
zkSync представит P256Verify, Bridgehub и Valdiums, поддерживающие расширенные функции в следующем обновлении
8 мая 2024
LD Capital, Antalpha Ventures и Highblock Limited объединяют усилия для запуска гонконгского фонда ликвидности ETF стоимостью $128 млн.
Бизнес Области применения: Новостной репортаж
LD Capital, Antalpha Ventures и Highblock Limited объединяют усилия для запуска гонконгского фонда ликвидности ETF стоимостью $128 млн.
8 мая 2024
Мемы изнутри Уолл-стрит (WSM): заголовки новостей
Бизнес Области применения: Истории и обзоры Технологии
Мемы изнутри Уолл-стрит (WSM): заголовки новостей
7 мая 2024
Откройте для себя криптокитов: кто есть кто на рынке
Бизнес Области применения: Истории и обзоры Технологии
Откройте для себя криптокитов: кто есть кто на рынке
7 мая 2024
CRYPTOMERIA LABS PTE. ООО