Стартап AI MyShell випускає алгоритм OpenVoice для точного клонування голосу
Коротко
Канадський стартап зі штучним інтелектом MyShell оголосив про відкриття свого алгоритму OpenVoice для миттєвого клонування голосу.
Respeecher, Voicemod і ElevenLabs – усі три стартапи мають одну спільну рису – усі вони надають алгоритми та програмне забезпечення ШІ для створення голосових клонів. Тепер новий гравець, канадський стартап ШІ MyShell оголосила про відкриття свого алгоритму OpenVoice для миттєвого клонування голосу.
MyShell поділився оновленням на платформа соціальних мереж X і сказав: «Клонуйте голоси з неперевершеною точністю, з детальним контролем тону, від емоцій до акценту, ритму, пауз та інтонації, використовуючи лише невеликий аудіозапис».
У рамках співпраці дослідники з Массачусетського технологічного інституту, MyShell.ai та Університету Цінхуа представили OpenVoice, який може відтворювати голос оратора та генерувати мову в кількома мовами, використовуючи лише короткий звуковий фрагмент із першоджерела. Він також фіксує унікальний тон і колір голосу мовця.
За словами компанії, алгоритм додає важливі стилістичні елементи, такі як емоція, акцент, ритм, паузи та інтонація. Ці елементи мають вирішальне значення для того, щоб мова звучала справді та створювала цікаві розмови. Це допомагає уникнути нудного звуку, який часто виникає під час звичайного синтезу мовлення.
Як працює модель ШІ з клонуванням голосу
В дипломну роботу, OpenVoice поділився методологією штучного інтелекту для клонування голосу. OpenVoice складається з двох різних Моделі AI: модель перетворення тексту в мову (TTS) і «конвертер тонів».
Модель може керувати параметрами стилю та мовами, а також пройшла «навчання з використанням 30,000 XNUMX речень» носіїв англійської (з американським і британським акцентом), китайської та японської. Тренування включало маркування зразків на основі виражених емоцій, і модель вивчала інтонацію, ритм і паузи з цих аудіокліпів.
З іншого боку, модель тонального перетворювача була навчена на величезному наборі даних із понад 300,000 20,000 аудіо зразків від понад XNUMX XNUMX різних динаміків. В обох випадках аудіо людського мовлення було перетворено у фонеми – специфічні звуки, які розрізняють слова – і представлено за допомогою векторних вставок.
Модель TTS, яка використовує «базовий динамік», поєднується з тоном, отриманим із записаного аудіо користувача в процесі навчання. Разом ці дві моделі можуть відтворювати голос користувача та змінювати колір тону – емоційне вираження, яке передається в усному тексті.
Стартап був заснований у 2023 році. Минулого року MyShell залучив 5.6 мільйона доларів початкового фінансування на чолі з INCE Capital, і в ньому взяли участь такі відомі інвестори, як Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC і OP Crypto тощо.
За словами компанії, фінансування допоможе в просуванні пропрієтарію Моделі AI, створення Creator Studio, розробленої для додатків на базі штучного інтелекту, і створення живої екосистеми творців у сфері технології блокчейн.
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Кумар є досвідченим технічним журналістом, який спеціалізується на динамічному перетині ШІ/ML, маркетингових технологій і нових галузей, таких як криптовалюта, блокчейн і NFTс. Завдяки більш ніж 3-річному досвіду роботи в галузі Кумар має досвід створення переконливих оповідей, проведення проникливих інтерв’ю та надання вичерпної інформації. Досвід Кумара полягає у створенні вражаючого контенту, зокрема статей, звітів і дослідницьких публікацій для відомих галузевих платформ. Володіючи унікальним набором навичок, який поєднує в собі технічні знання та розповідь, Кумар чудово вміє доносити складні технологічні концепції до різноманітної аудиторії в чіткій та привабливій формі.
інші статтіКумар є досвідченим технічним журналістом, який спеціалізується на динамічному перетині ШІ/ML, маркетингових технологій і нових галузей, таких як криптовалюта, блокчейн і NFTс. Завдяки більш ніж 3-річному досвіду роботи в галузі Кумар має досвід створення переконливих оповідей, проведення проникливих інтерв’ю та надання вичерпної інформації. Досвід Кумара полягає у створенні вражаючого контенту, зокрема статей, звітів і дослідницьких публікацій для відомих галузевих платформ. Володіючи унікальним набором навичок, який поєднує в собі технічні знання та розповідь, Кумар чудово вміє доносити складні технологічні концепції до різноманітної аудиторії в чіткій та привабливій формі.