Звіт про новини Технологія
Січень 03, 2024

Стартап AI MyShell випускає алгоритм OpenVoice для точного клонування голосу

Коротко

Канадський стартап зі штучним інтелектом MyShell оголосив про відкриття свого алгоритму OpenVoice для миттєвого клонування голосу.

Стартап AI MyShell випускає алгоритм OpenVoice для точного клонування голосу

Respeecher, Voicemod і ElevenLabs – усі три стартапи мають одну спільну рису – усі вони надають алгоритми та програмне забезпечення ШІ для створення голосових клонів. Тепер новий гравець, канадський стартап ШІ MyShell оголосила про відкриття свого алгоритму OpenVoice для миттєвого клонування голосу.

MyShell поділився оновленням на платформа соціальних мереж X і сказав: «Клонуйте голоси з неперевершеною точністю, з детальним контролем тону, від емоцій до акценту, ритму, пауз та інтонації, використовуючи лише невеликий аудіозапис».

У рамках співпраці дослідники з Массачусетського технологічного інституту, MyShell.ai та Університету Цінхуа представили OpenVoice, який може відтворювати голос оратора та генерувати мову в кількома мовами, використовуючи лише короткий звуковий фрагмент із першоджерела. Він також фіксує унікальний тон і колір голосу мовця.

За словами компанії, алгоритм додає важливі стилістичні елементи, такі як емоція, акцент, ритм, паузи та інтонація. Ці елементи мають вирішальне значення для того, щоб мова звучала справді та створювала цікаві розмови. Це допомагає уникнути нудного звуку, який часто виникає під час звичайного синтезу мовлення.

Як працює модель ШІ з клонуванням голосу

В дипломну роботу, OpenVoice поділився методологією штучного інтелекту для клонування голосу. OpenVoice складається з двох різних Моделі AI: модель перетворення тексту в мову (TTS) і «конвертер тонів».

Модель може керувати параметрами стилю та мовами, а також пройшла «навчання з використанням 30,000 XNUMX речень» носіїв англійської (з американським і британським акцентом), китайської та японської. Тренування включало маркування зразків на основі виражених емоцій, і модель вивчала інтонацію, ритм і паузи з цих аудіокліпів.

З іншого боку, модель тонального перетворювача була навчена на величезному наборі даних із понад 300,000 20,000 аудіо зразків від понад XNUMX XNUMX різних динаміків. В обох випадках аудіо людського мовлення було перетворено у фонеми – специфічні звуки, які розрізняють слова – і представлено за допомогою векторних вставок.

Модель TTS, яка використовує «базовий динамік», поєднується з тоном, отриманим із записаного аудіо користувача в процесі навчання. Разом ці дві моделі можуть відтворювати голос користувача та змінювати колір тону – емоційне вираження, яке передається в усному тексті.

Стартап був заснований у 2023 році. Минулого року MyShell залучив 5.6 мільйона доларів початкового фінансування на чолі з INCE Capital, і в ньому взяли участь такі відомі інвестори, як Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC і OP Crypto тощо.

За словами компанії, фінансування допоможе в просуванні пропрієтарію Моделі AI, створення Creator Studio, розробленої для додатків на базі штучного інтелекту, і створення живої екосистеми творців у сфері технології блокчейн.

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Кумар є досвідченим технічним журналістом, який спеціалізується на динамічному перетині ШІ/ML, маркетингових технологій і нових галузей, таких як криптовалюта, блокчейн і NFTс. Завдяки більш ніж 3-річному досвіду роботи в галузі Кумар має досвід створення переконливих оповідей, проведення проникливих інтерв’ю та надання вичерпної інформації. Досвід Кумара полягає у створенні вражаючого контенту, зокрема статей, звітів і дослідницьких публікацій для відомих галузевих платформ. Володіючи унікальним набором навичок, який поєднує в собі технічні знання та розповідь, Кумар чудово вміє доносити складні технологічні концепції до різноманітної аудиторії в чіткій та привабливій формі.

інші статті
Кумар Гандхарв
Кумар Гандхарв

Кумар є досвідченим технічним журналістом, який спеціалізується на динамічному перетині ШІ/ML, маркетингових технологій і нових галузей, таких як криптовалюта, блокчейн і NFTс. Завдяки більш ніж 3-річному досвіду роботи в галузі Кумар має досвід створення переконливих оповідей, проведення проникливих інтерв’ю та надання вичерпної інформації. Досвід Кумара полягає у створенні вражаючого контенту, зокрема статей, звітів і дослідницьких публікацій для відомих галузевих платформ. Володіючи унікальним набором навичок, який поєднує в собі технічні знання та розповідь, Кумар чудово вміє доносити складні технологічні концепції до різноманітної аудиторії в чіткій та привабливій формі.

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Від Ripple до The Big Green DAO: як криптовалютні проекти сприяють благодійності

Давайте розглянемо ініціативи, які використовують потенціал цифрових валют для благодійних цілей.

Дізнайтеся більше

AlphaFold 3, Med-Gemini та інші: як AI трансформує охорону здоров’я у 2024 році

ШІ проявляється різними способами в охороні здоров’я, від виявлення нових генетичних кореляцій до розширення можливостей роботизованих хірургічних систем...

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Crypto Exchange Jupiter представить Jupiter Swap V3, Dynamic Slippage та інші ключові оновлення в найближчі тижні
ринки Звіт про новини Технологія
Crypto Exchange Jupiter представить Jupiter Swap V3, Dynamic Slippage та інші ключові оновлення в найближчі тижні
14 Червня, 2024.
Polygon дебютує як центр управління, що забезпечує єдиний прозорий інтерфейс для управління спільнотою
Звіт про новини Технологія
Polygon дебютує як центр управління, що забезпечує єдиний прозорий інтерфейс для управління спільнотою 
14 Червня, 2024.
Binance зареєструвала понад 30 мільйонів нових користувачів у 2024 році, активи клієнтів перевищили позначку в 100 мільярдів доларів
ринки Звіт про новини Технологія
Binance зареєструвала понад 30 мільйонів нових користувачів у 2024 році, активи клієнтів перевищили позначку в 100 мільярдів доларів
14 Червня, 2024.
Amazon підтримує стартапи Generative AI, інвестувавши 230 мільйонів доларів, виділяє 80 мільйонів доларів на свою другу програму AWS Generative AI Accelerator
Business Звіт про новини Технологія
Amazon підтримує стартапи Generative AI, інвестувавши 230 мільйонів доларів, виділяє 80 мільйонів доларів на свою другу програму AWS Generative AI Accelerator
14 Червня, 2024.
CRYPTOMERIA LABS PTE. LTD.