ВАЛЛ-Е: Мицрософтов нови модел претварања текста у говор може да дуплира свачији глас за три секунде
Укратко
Са само три секунде узорка било ког гласа, ТТС модел заснован на трансформатору ВАЛЛ-Е може произвести говор у сваком гласу.
Ово је значајан напредак у правцу ТТС система који звуче природније.
Мицрософт је, међутим, обезбедио неколико примерака модела у употреби, и очигледно је да ово представља значајан напредак у ТТС технологији.
Од објављивања првог модела текста у говор (ТТС), истраживачи су тражили начине да побољшају начин на који ови системи генеришу говор. Најновији модел из Мицрософта, ВАЛЛ-Е, представља значајан корак напред у том погледу.
ВАЛЛ-Е је ТТС модел заснован на трансформатору који може да генерише говор било којим гласом након што чује само три секунде узорка тог гласа. Ово је значајно побољшање у односу на претходне моделе, који су захтевали много дужи период обуке да би се генерисао нови глас.
Повезани чланак: Мицрософт је објавио модел дифузије који може да направи 3Д аватар од једне фотографије особе |
Поред тога, интонација, харизма и стил гласа остају нетакнути у генерисаном говору. Ово је важан корак напред у томе да ТТС системи звуче природније.
Овај модел је заснован на трансформатору и има изглед Дале-1. Не треба мешати са Далле-2 базираним на дифузији. Код и даље недостаје. И корисници имају одређени скептицизам да ће га објавити.
Међутим, Мицрософт је објавио неколико примера модела у акцији и јасно је да је ово велики напредак у ТТС технологији.
Пример #КСНУМКС:
Пример #2:
Пример #КСНУМКС:
Прочитајте више о АИ:
Одрицање од одговорности
У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.
О аутору
Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.
više чланакаДамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.