Новостной репортаж Технологии
03 января 2024

AI-стартап MyShell выпускает алгоритм OpenVoice для точного клонирования голоса

Коротко

Канадский стартап MyShell, занимающийся искусственным интеллектом, объявил, что открыл исходный код своего алгоритма OpenVoice для мгновенного клонирования голоса.

AI-стартап MyShell выпускает алгоритм OpenVoice для точного клонирования голоса

Респичер, Voicemod и Одиннадцать лабораторий – У всех трех стартапов есть одна общая черта – все они предоставляют алгоритмы и программное обеспечение для искусственного интеллекта для создания голосовых клонов. Теперь новый игрок, канадский стартап в области искусственного интеллекта. MyShell объявила, что открыла исходный код своего алгоритма OpenVoice для мгновенного клонирования голоса.

MyShell поделился обновлением платформа социальных сетей X и сказал: «Клонируйте голоса с беспрецедентной точностью, с детальным контролем тона, от эмоций до акцента, ритма, пауз и интонации, используя всего лишь небольшой аудиоклип».

В рамках сотрудничества исследователи из Массачусетского технологического института, MyShell.ai и Университета Цинхуа представили OpenVoice, который может воспроизводить голос говорящего и генерировать речь в несколько языков, используя лишь краткий аудиофрагмент из первоисточника. Он также передает уникальный тон и цвет голоса говорящего.

По словам компании, алгоритм добавляет важные стилистические элементы, такие как эмоции, акцент, ритм, паузы и интонация. Эти элементы имеют решающее значение для того, чтобы речь звучала реалистично и создавались интересные беседы. Это помогает избежать скучного звука, который часто возникает при обычном преобразовании текста в речь.

Как работает модель искусственного интеллекта, клонирующего голос

В статья про исследование OpenVoice поделилась методологией своего искусственного интеллекта для клонирования голоса. OpenVoice состоит из двух отдельных AI модели: модель преобразования текста в речь (TTS) и «конвертер тонов».

Модель может управлять параметрами стиля и языками и прошла «обучение с использованием 30,000 XNUMX предложений» от носителей английского (с американским и британским акцентом), китайского и японского языков. Обучение включало в себя маркировку образцов на основе выраженных эмоций, а модель изучала интонацию, ритм и паузы из этих аудиоклипов.

С другой стороны, модель тонального преобразователя была обучена на обширном наборе данных, содержащем более 300,000 20,000 аудиосэмплов от более чем XNUMX XNUMX различных динамиков. В обоих случаях звук человеческой речи был преобразован в фонемы — особые звуки, которые различают слова — и представлены с помощью векторных вложений.

Модель TTS, использующая «базовый динамик», сочетается с тоном, полученным из аудиозаписи пользователя в процессе обучения. Вместе эти две модели могут копировать голос пользователя и изменять цвет тона — эмоциональное выражение, передаваемое в устном тексте.

Стартап был основан в 2023 году. В прошлом году MyShell привлек $5.6 млн начального финансирования под руководством INCE Capital и в нем приняли участие такие известные инвесторы, как Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC и OP Crypto и другие.

По мнению компании, финансирование поможет в продвижении собственной разработки. AI модели, создание Creator Studio, специально предназначенной для приложений на основе искусственного интеллекта, и создание динамичной экосистемы авторов в сфере технологии блокчейн.

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Кумар — опытный технический журналист, специализирующийся на динамических пересечениях искусственного интеллекта и машинного обучения, маркетинговых технологий и новых областях, таких как криптография, блокчейн и NFTс. Имея более чем трехлетний опыт работы в отрасли, Кумар зарекомендовал себя в создании убедительных повествований, проведении содержательных интервью и предоставлении всеобъемлющей информации. Опыт Кумара заключается в создании эффективного контента, включая статьи, отчеты и исследовательские публикации для известных отраслевых платформ. Обладая уникальным набором навыков, сочетающим в себе технические знания и умение рассказывать истории, Кумар преуспевает в ясной и увлекательной передаче сложных технологических концепций разнообразной аудитории.

Другие статьи
Кумар Гандхарв
Кумар Гандхарв

Кумар — опытный технический журналист, специализирующийся на динамических пересечениях искусственного интеллекта и машинного обучения, маркетинговых технологий и новых областях, таких как криптография, блокчейн и NFTс. Имея более чем трехлетний опыт работы в отрасли, Кумар зарекомендовал себя в создании убедительных повествований, проведении содержательных интервью и предоставлении всеобъемлющей информации. Опыт Кумара заключается в создании эффективного контента, включая статьи, отчеты и исследовательские публикации для известных отраслевых платформ. Обладая уникальным набором навыков, сочетающим в себе технические знания и умение рассказывать истории, Кумар преуспевает в ясной и увлекательной передаче сложных технологических концепций разнообразной аудитории.

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Институциональный аппетит к биткойн-ETF растет на фоне волатильности

Раскрытие информации через отчеты 13F показывает, что известные институциональные инвесторы балуются биткойн-ETF, подчеркивая растущее признание...

Узнать больше

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
NuLink запускается на Bybit Web3 Платформа IDO. Фаза подписки продлена до 13 мая
Области применения: Новостной репортаж Технологии
NuLink запускается на Bybit Web3 Платформа IDO. Фаза подписки продлена до 13 мая
9 мая 2024
UXLINK и Binance сотрудничают в новой кампании, предлагая пользователям 20 миллионов баллов UXUY и Airdrop Награды
Области применения: Новостной репортаж Технологии
UXLINK и Binance сотрудничают в новой кампании, предлагая пользователям 20 миллионов баллов UXUY и Airdrop Награды
9 мая 2024
Side Protocol запускает стимулирующую тестовую сеть и вводит систему инсайдерских баллов, позволяющую пользователям зарабатывать баллы SIDE
Области применения: Новостной репортаж Технологии
Side Protocol запускает стимулирующую тестовую сеть и вводит систему инсайдерских баллов, позволяющую пользователям зарабатывать баллы SIDE
9 мая 2024
Web3 и криптособытия в мае 2024 года: изучение новых технологий и новых тенденций в области блокчейна и DeFi
Digest Бизнес Области применения: Технологии
Web3 и криптособытия в мае 2024 года: изучение новых технологий и новых тенденций в области блокчейна и DeFi
9 мая 2024
CRYPTOMERIA LABS PTE. ООО