AI Startup MyShell пуска OpenVoice алгоритъм за прецизно клониране на глас
Накратко
Канадският стартиращ AI MyShell обяви, че е отворил своя алгоритъм OpenVoice за незабавно клониране на глас.
Респечер, Voicemod и ElevenLabs – и трите стартиращи компании имат едно общо нещо – всички предоставят алгоритми и AI софтуер за създаване на гласови клонинги. Сега, нов играч, канадски AI стартъп MyShell обяви, че е отворил своя алгоритъм OpenVoice за незабавно клониране на глас.
MyShell сподели актуализацията на платформа за социални медии X и каза: „Клонирайте гласове с несравнима прецизност, с детайлен контрол на тона, от емоция до акцент, ритъм, паузи и интонация, като използвате само малък аудио клип.“
В рамките на сътрудничеството изследователи от Масачузетския технологичен институт, MyShell.ai и университета Цинхуа разкриха OpenVoice, който може да копира гласа на говорещия и генерирането на реч в няколко езика, използвайки само кратък аудио фрагмент от оригиналния източник. Той също така улавя уникалния тон и цвят на гласа на говорещия.
Според компанията алгоритъмът добавя важни стилистични елементи като емоция, акцент, ритъм, паузи и интонация. Тези елементи са от решаващо значение, за да направите речта да звучи реално и да създадете интересни разговори. Помага за избягване на скучния звук, който често получавате при обикновен текст-към-говор.
Как работи AI моделът за клониране на глас
В изследвания хартия, OpenVoice сподели методологията зад своя AI за клониране на глас. OpenVoice се състои от две отделни AI модели: модел за преобразуване на текст в реч (TTS) и „конвертор на тонове“.
Моделът може да управлява стилови параметри и езици и е преминал „обучение с помощта на 30,000 XNUMX изречения“ от английски (с американски и британски акцент), китайски и японски говорители. Обучението включваше етикетиране на пробите въз основа на изразените емоции и моделът научи интонация, ритъм и паузи от тези аудио клипове.
От друга страна, моделът на преобразувател на тонове беше обучен върху огромен набор от данни от над 300,000 20,000 аудио проби от повече от XNUMX XNUMX различни високоговорителя. И в двата случая аудиото на човешката реч беше преобразувано във фонеми – специфични звуци, които разграничават думите – и представено с помощта на векторни вграждания.
Моделът TTS, използващ „базов високоговорител“, комбинира с тона, получен от записания звук на потребителя в процеса на обучение. Заедно тези два модела могат да копират гласа на потребителя и да променят цвета на тона – емоционалното изражение, предадено в изговорения текст.
Стартъпът е основан през 2023 г. Миналата година MyShell събра 5.6 милиона долара първоначално финансиране, водено от INCE Capital, и видя участието на видни инвеститори като Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC и OP Crypto, наред с други.
Според компанията, финансирането ще помогне за напредъка на патентования AI модели, създаването на Creator Studio, пригодено за приложения, базирани на AI, и установяването на жизнена екосистема за създатели в областта на блокчейн технологията.
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Кумар е опитен технически журналист със специализация в динамичните пресечни точки на AI/ML, маркетингови технологии и нововъзникващи области като крипто, блокчейн и NFTс. С над 3 години опит в индустрията, Kumar има доказан опит в изработването на завладяващи разкази, провеждането на проницателни интервюта и предоставянето на изчерпателни прозрения. Експертният опит на Kumar се състои в създаването на силно въздействащо съдържание, включително статии, доклади и изследователски публикации за известни индустриални платформи. С уникален набор от умения, който съчетава технически познания и разказване на истории, Кумар се справя отлично в предаването на сложни технологични концепции на различни аудитории по ясен и увлекателен начин.
Още статииКумар е опитен технически журналист със специализация в динамичните пресечни точки на AI/ML, маркетингови технологии и нововъзникващи области като крипто, блокчейн и NFTс. С над 3 години опит в индустрията, Kumar има доказан опит в изработването на завладяващи разкази, провеждането на проницателни интервюта и предоставянето на изчерпателни прозрения. Експертният опит на Kumar се състои в създаването на силно въздействащо съдържание, включително статии, доклади и изследователски публикации за известни индустриални платформи. С уникален набор от умения, който съчетава технически познания и разказване на истории, Кумар се справя отлично в предаването на сложни технологични концепции на различни аудитории по ясен и увлекателен начин.