АИ Стартуп МиСхелл издаје ОпенВоице алгоритам за прецизно клонирање гласа
Укратко
Канадски АИ стартуп МиСхелл објавио је да је отворио свој ОпенВоице алгоритам за тренутно клонирање гласа.
Респеецхер, Воицемод и ЕлевенЛабс – сва три стартупа имају једну заједничку ствар – сви обезбеђују алгоритме и АИ софтвер за прављење клонова гласа. Сада, нови играч, канадски АИ стартуп МиСхелл објавила да је отворила свој ОпенВоице алгоритам за тренутно клонирање гласа.
МиСхелл је поделио ажурирање на платформа друштвених медија Кс и рекао: „Клонирајте гласове са неупоредивом прецизношћу, са прецизном контролом тона, од емоција до акцента, ритма, паузе и интонације, користећи само мали аудио снимак.“
У оквиру сарадње, истраживачи са МИТ-а, МиСхелл.аи и Универзитета Тсингхуа представили су ОпенВоице, који може да реплицира глас говорника и генерише говор у више језика, користећи само кратак аудио исечак из оригиналног извора. Такође бележи јединствени тон и боју гласа говорника.
Према наводима компаније, алгоритам додаје кључне стилске елементе као што су емоција, акценат, ритам, паузе и интонација. Ови елементи су пресудни да говор звучи реално и да створи занимљиве разговоре. Помаже да се избегне досадан звук који често добијате са редовним претварањем текста у говор.
Како функционише АИ модел за клонирање гласа
У истраживачки рад, ОпенВоице је поделио методологију која стоји иза своје вештачке интелигенције за клонирање гласа. ОпенВоице се састоји од два различита АИ модели: модел за претварање текста у говор (ТТС) и „претварач тонова“.
Модел може да управља параметрима стила и језицима, и прошао је „обуку користећи 30,000 реченица“ са енглеског (са америчким и британским акцентом), говорника кинеског и јапанског. Обука је укључивала означавање узорака на основу изражених емоција, а модел је научио интонацију, ритам и паузе из ових аудио клипова.
С друге стране, модел претварача тона је обучен на огромном скупу података од преко 300,000 аудио узорака са више од 20,000 различитих звучника. У оба случаја, звук људског говора је претворен у фонеме – специфичне звукове који разликују речи – и представљен коришћењем векторских уградњи.
ТТС модел, који користи „базни звучник“, комбинује се са тоном добијеним из корисниковог снимљеног звука у процесу обуке. Заједно, ова два модела могу реплицирати глас корисника и модификовати боју тона – емоционални израз који се преноси у изговореном тексту.
Стартуп је основан 2023. Прошле године, МиСхелл је прикупио 5.6 милиона долара почетног финансирања, на челу са ИНЦЕ Цапитал-ом, и видео је учешће истакнутих инвеститора као што су Фолиус Вентурес, Хасхкеи Цапитал, СевенКс Вентурес, ТСВЦ и ОП Црипто, између осталих.
Према наводима компаније, финансирање ће помоћи у унапређењу власништва АИ модели, креирање Студија за креаторе прилагођеног апликацијама које имају АИ, и успостављање живог екосистема креатора у домену блоцкцхаин технологије.
Одрицање од одговорности
У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.
О аутору
Кумар је искусан технички новинар са специјализацијом у динамичким пресецима АИ/МЛ, маркетиншке технологије и нових поља као што су крипто, блокчејн и NFTс. Са више од 3 године искуства у индустрији, Кумар је успоставио доказане резултате у креирању убедљивих наратива, вођењу проницљивих интервјуа и пружању свеобухватних увида. Кумарова експертиза лежи у производњи садржаја високог утицаја, укључујући чланке, извештаје и истраживачке публикације за истакнуте индустријске платформе. Са јединственим скупом вештина који комбинује техничко знање и приповедање, Кумар се истиче у комуникацији сложених технолошких концепата различитој публици на јасан и привлачан начин.
više чланакаКумар је искусан технички новинар са специјализацијом у динамичким пресецима АИ/МЛ, маркетиншке технологије и нових поља као што су крипто, блокчејн и NFTс. Са више од 3 године искуства у индустрији, Кумар је успоставио доказане резултате у креирању убедљивих наратива, вођењу проницљивих интервјуа и пружању свеобухватних увида. Кумарова експертиза лежи у производњи садржаја високог утицаја, укључујући чланке, извештаје и истраживачке публикације за истакнуте индустријске платформе. Са јединственим скупом вештина који комбинује техничко знање и приповедање, Кумар се истиче у комуникацији сложених технолошких концепата различитој публици на јасан и привлачан начин.