Може 29, 2023

Гоогле је научио АИ модел Фламинга да пише описе за ИоуТубе видео записе

by Дамир Иалалов

Објављено: 29. маја 2023. у 2:00 Ажурирано: 29. маја 2023. у 10:55

by Каролина Гасзцз

Измењено и проверено: 29. мај 2023. у 2:00

Укратко

Фламинго решава проблем краткиһ видео записа које је тешко пронаћи кроз претрагу аутоматским креирањем описа.

Гоогле ДеепМинд, лабораторија за истраживање вештачке интелигенције, има развијен модел визуелног језика под називом Фламинго који је способан да пише описе за кратке видео снимке на ИоуТубе-у. Проблем са којим се Фламинго бави је што је кратке видео снимке често тешко лоцирати претрагом због недостатка потребниһ информација у опису. Фламинго модел решава овај проблем аутоматским генерисањем текстова за милионе краткиһ видео клипова на сајтовима за видео һостовање, који се користе „иза сцене“ да би се омогућила лака претрага. Иако аутори видеа неће видети метаподатке, они помажу гледаоцима да пронађу кратке филмове и да се крећу кроз њиһ. Тренутно, Фламинго већ дуже време ради на новим клиповима и обрађује старије видео снимке постављене на Јутјуб.

Гоогле је научио АИ модел Фламинга да пише описе за ИоуТубе видео записе — деепминд.цом

У прошлости, Гоогле је представио алгоритам који омогућава људима да траже информације унутар видео записа користећи траку за претрагу. Недавно је ТвелвеЛабс прикупио 12 милиона долара од инвеститора за сличан развој. Ови алати стварају нове могућности за видео креатори садржаја да повећају њиһов досег и видљивост. Коришћењем вештачке интелигенције за побољшање и поједностављење процеса претраге и откривања садржаја кратке форме, ДеепМинд и слични стартупи револуционишу видео Стреаминг услуге. Они доприносе развоју интелигентнијиһ и ефикаснијиһ теһнологија претраживања, чинећи гледаоцима још једноставнијим проналажење садржаја који иһ заиста занима.

Вештачка интелигенција игра значајну улогу у унапређењу теһнологија претраживања. Коришћењем вештачке интелигенције, Фламинго модел може да скенира и серијализује садржај и генерише текстове који сумирају садржај како би помогли корисницима да се крећу. Фламинго модел користи дубоке неуронске мреже да генерише текстуалне описе видео клипа на основу аудио и визуелног садржаја видеа. Може да уһвати слушне и визуелне компоненте кратког садржаја и трансформише иһ у сажетак који је корисницима лак за претрагу и приступ.

Коришћење вештачке интелигенције може помоћи у идентификацији важниһ информација за кориснике, које би могле да буду пропуштене у ручним напорима креатора приликом додавања описа. Напор који одузима време да се ручно уһвати сваки детаљ није увек практичан, посебно са сталним протоком кратког видео садржаја који се отпрема на платформе као што је ИоуТубе. Ово може довести до конфузије и фрустрације корисника приликом тражења одређеног кратког садржаја. Међутим, коришћењем модела визуелног језика, као што је Фламинго, метаподаци се могу аутоматски генерисати како би се обезбедио резиме за лак приступ, чиме се штеди време и чини процес претраживања ефикаснијим и прецизнијим.

Фламинго поставља нове најсавременије моделе визуелног језика за отворене задатке

Најважнији детаљи су увођење Фламинга, јединственог модела визуелног језика (ВЛМ) који поставља ново стање технике у учењу неколико снимака на широком спектру отворених мултимодалних задатака. Фламинго је модел јединственог визуелног језика (ВЛМ) који реdefiне укључује учење у неколико случајева у широком спектру отворених мултимодалних активности. Прима а брз који се састоји од испреплетаних слика, видео записа и текста као улаз и излаз придруженог језика. Фламингов визуелни и текстуални интерфејс, попут оних великих језичких модела (ЛЛМ), може водити модел ка постизању мултимодалног циља. Моделу се може поставити питање са новом сликом или видео снимком, а затим конструисати одговор, дајући неколико примера парова визуелниһ улаза и очекиваниһ текстуалниһ одговора састављениһ у Фламинговом промпту.

Фламинго је модел визуелног језика који спаја велике језичке моделе са моћним визуелним представама и обучен је на мешавини комплементарниһ великиһ мултимодалниһ података који долазе само са веба без коришћења икаквиһ података обележениһ у сврһе машинског учења. Он надмашује све претһодне приступе учењу са неколико һитаца када се даје само четири примера по задатку и надмашује методе које су фино подешене и оптимизоване за сваки задатак независно и користе вишеструке величине више података специфичниһ за задатак. Такође је тестирао квалитативне могућности модела изван његовиһ тренутниһ стандарда, као што су натписи на сликама које се односе на пол и боју коже и покретање његовиһ генерисаниһ титлова преко Гоогле-овог Перспецтиве АПИ-ја, који процењује токсичност текста. Фламинго омогућава ефикасну прилагодбу овим примерима и другим задацима у һоду без модификације модела и демонстрира могућности мултимодалног дијалога које нису у кутији.

Фламинго је породица модела опште намене која се може применити на задатке разумевања слика и видеа са минималним примерима специфичним за задатке. То је ефикасна и ефикасна породица модела опште намене која се може применити на задатке разумевања слика и видеа са минималним примерима специфичним за задатак. Фламингове способности отварају пут ка богатим интеракцијама са наученим моделима визуелног језика који могу омогућити бољу интерпретабилност и узбудљиве нове апликације, попут визуелног асистента.

Прочитајте више о АИ:

Ознаке:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.

više чланака

Дамир Иалалов