Ulat sa Balita Teknolohiya
Mayo 29, 2023

Tinuruan ng Google ang AI Model Flamingo na Sumulat ng Mga Paglalarawan para sa Mga Video sa YouTube

Sa madaling sabi

Niresolba ng Flamingo ang problema ng mga maikling video na mahirap hanapin sa pamamagitan ng paghahanap sa pamamagitan ng awtomatikong paglikha ng mga paglalarawan.

Ang Google DeepMind, ang AI research laboratory, ay mayroon umunlad isang modelo ng visual na wika na tinatawag na Flamingo na may kakayahang sumulat ng mga paglalarawan para sa maiikling video sa YouTube. Ang problema na tinutugunan ng Flamingo ay ang mga maikling video ay kadalasang mahirap hanapin sa pamamagitan ng paghahanap dahil sa kakulangan ng kinakailangang impormasyon sa paglalarawan. Nilulutas ng modelo ng Flamingo ang problemang ito sa pamamagitan ng awtomatikong pagbuo ng mga teksto para sa milyun-milyong maikling video clip sa mga site ng pagho-host ng video, na ginagamit "sa likod ng mga eksena" upang paganahin ang madaling paghahanap. Bagama't hindi makikita ng mga may-akda ng video ang metadata, nakakatulong ito sa mga manonood na mahanap at mag-navigate sa shorts. Sa kasalukuyan, ang Flamingo ay gumagawa ng mga bagong clip at pinoproseso ang mga mas lumang video na na-upload sa YouTube sa loob ng mahabang panahon.

Tinuruan ng Google ang AI Model Flamingo na Sumulat ng Mga Paglalarawan para sa Mga Video sa YouTube
deepmind.com

Noong nakaraan, ipinakilala ng Google ang isang algorithm na nagbibigay-daan sa mga tao na maghanap ng impormasyon sa loob ng mga video gamit ang search bar. Kamakailan, ang TwelveLabs ay nakalikom ng $12 milyon mula sa mga mamumuhunan para sa katulad na pag-unlad. Lumilikha ang mga tool na ito ng mga bagong pagkakataon para sa video mga tagalikha ng nilalaman upang madagdagan ang kanilang abot at visibility. Sa pamamagitan ng paggamit ng AI para pahusayin at pasimplehin ang proseso ng paghahanap at pagtuklas ng short-form na content, ang DeepMind, at mga katulad na startup, ay nagbabago ng video streaming serbisyo. Nag-aambag sila sa pagbuo ng mas matalino at mahusay na mga teknolohiya sa paghahanap, na ginagawang mas simple para sa mga manonood na makahanap ng nilalamang tunay na interesado sa kanila.

Malaki ang papel ng artificial intelligence sa pag-upgrade ng mga teknolohiya sa paghahanap. Sa pamamagitan ng paggamit ng AI, ang modelo ng Flamingo ay maaaring mag-scan at mag-serialize ng nilalaman at makabuo ng mga text na nagbubuod sa nilalaman upang matulungan ang mga user na mag-navigate. Gumagamit ang modelo ng Flamingo ng malalalim na neural network upang makabuo ng mga tekstong paglalarawan ng isang video clip batay sa audio at visual na nilalaman ng video. Maaari nitong makuha ang auditory at visual na mga bahagi ng short-form na nilalaman at ibahin ang mga ito sa isang buod na madaling hanapin at i-access ng mga user.

Makakatulong ang paggamit ng AI na matukoy ang mahalagang impormasyon para sa mga user, na maaaring makaligtaan sa mga manu-manong pagsisikap ng mga creator habang nagdaragdag ng mga paglalarawan. Ang pag-uubos ng oras na pagsisikap na manu-manong makuha ang bawat detalye ay hindi palaging praktikal, lalo na sa patuloy na daloy ng short-form na nilalamang video na na-upload sa mga platform tulad ng YouTube. Maaari itong humantong sa pagkalito at pagkabigo ng user kapag naghahanap ng partikular na short-form na nilalaman. Gayunpaman, sa paggamit ng mga modelo ng visual na wika, tulad ng Flamingo, ang metadata ay maaaring awtomatikong mabuo upang magbigay ng buod para sa madaling pag-access, kaya makatipid ng oras at gawing mas mahusay at tumpak ang proseso ng paghahanap.

Nagtatakda ang Flamingo ng Mga Bagong Makabagong Modelo ng Visual Language Para sa Mga Bukas na Gawain

Ang pinakamahalagang detalye ay ang pagpapakilala ng Flamingo, isang solong modelo ng visual na wika (VLM) na nagtatakda ng bagong state of the art sa few-shot learning sa malawak na hanay ng mga open-ended multimodal na gawain. Ang Flamingo ay isang solong visual language model (VLM) na mulingdefiilang-shot na pag-aaral sa isang malawak na hanay ng mga open-ended multimodal na aktibidad. Ito ay tumatanggap ng a prompt na binubuo ng mga interleaved na larawan, video, at text bilang input at output sa nauugnay na wika. Visual at text interface ng Flamingo, tulad ng mga modelo ng malalaking wika (LLMs), ay maaaring humantong sa modelo tungo sa pagtupad ng multimodal na layunin. Maaaring tanungin ang modelo ng isang tanong gamit ang isang sariwang larawan o video at pagkatapos ay bumuo ng isang sagot, na binigyan ng ilang halimbawang pares ng mga visual na input at inaasahang mga tugon sa teksto na binubuo sa prompt ng Flamingo.

Ang Flamingo ay isang modelo ng visual na wika na nagsasama ng malalaking modelo ng wika na may makapangyarihang visual na representasyon at sinanay sa isang halo ng komplementaryong malakihang multimodal na data na nagmumula lamang sa web nang hindi gumagamit ng anumang data na naka-annotate para sa mga layunin ng machine learning. Tinatalo nito ang lahat ng nakaraang ilang-shot na diskarte sa pag-aaral kapag binigyan ng kasing-kaunti ng apat na halimbawa sa bawat gawain at nahihigitan nito ang mga pamamaraan na maayos at na-optimize para sa bawat gawain nang nakapag-iisa at gumagamit ng maramihang mga order ng magnitude na higit pang data na partikular sa gawain. Sinubukan din nito ang mga kakayahan ng modelo na higit pa sa mga kasalukuyang benchmark nito, tulad ng paglalagay ng caption sa mga larawang nauugnay sa kasarian at kulay ng balat at pagpapatakbo ng mga nabuong caption nito sa pamamagitan ng Google's Perspective API, na sinusuri ang toxicity ng text. Ginagawang posible ng Flamingo na mahusay na umangkop sa mga halimbawang ito at iba pang mga gawain on-the-fly nang hindi binabago ang modelo at nagpapakita ng mga out-of-the-box na multimodal na kakayahan sa pag-uusap.

Ang Flamingo ay isang pangkalahatang layunin na pamilya ng mga modelo na maaaring ilapat sa mga gawain sa pag-unawa sa larawan at video na may kaunting mga halimbawang partikular sa gawain. Ito ay isang epektibo at mahusay na pangkalahatang layunin na pamilya ng mga modelo na maaaring ilapat sa mga gawain sa pag-unawa sa larawan at video na may kaunting mga halimbawang partikular sa gawain. Ang mga kakayahan ng Flamingo ay nagbibigay daan tungo sa masaganang pakikipag-ugnayan sa mga natutunang modelo ng visual na wika na maaaring magbigay-daan sa mas mahusay na interpretability at kapana-panabik na mga bagong application, tulad ng isang visual assistant.

Magbasa pa tungkol sa AI:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Ang mga pagsisiwalat sa pamamagitan ng 13F filing ay nagpapakita ng mga kilalang institusyonal na mamumuhunan na nakikipag-ugnayan sa mga Bitcoin ETF, na binibigyang-diin ang lumalaking pagtanggap ng ...

Malaman Higit Pa

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
Pinagsama-sama ng Injective ang AltLayer Upang Magdala ng Restaking Security Sa inEVM
Negosyo Ulat sa Balita Teknolohiya
Pinagsama-sama ng Injective ang AltLayer Upang Magdala ng Restaking Security Sa inEVM
Mayo 3, 2024
Nakipagtulungan ang Masa Sa Teller Upang Ipakilala ang MASA Lending Pool, Pinapagana ang USDC Borrowing On Base
markets Ulat sa Balita Teknolohiya
Nakipagtulungan ang Masa Sa Teller Upang Ipakilala ang MASA Lending Pool, Pinapagana ang USDC Borrowing On Base
Mayo 3, 2024
Inilunsad ng Velodrome ang Superchain Beta na Bersyon Sa Mga Paparating na Linggo At Lumalawak sa OP Stack Layer 2 Blockchain
markets Ulat sa Balita Teknolohiya
Inilunsad ng Velodrome ang Superchain Beta na Bersyon Sa Mga Paparating na Linggo At Lumalawak sa OP Stack Layer 2 Blockchain
Mayo 3, 2024
Inanunsyo ng CARV ang Pakikipagsosyo Sa Aethir Upang I-desentralisa ang Layer ng Data Nito At Ipamahagi ang Mga Gantimpala
Negosyo Ulat sa Balita Teknolohiya
Inanunsyo ng CARV ang Pakikipagsosyo Sa Aethir Upang I-desentralisa ang Layer ng Data Nito At Ipamahagi ang Mga Gantimpala
Mayo 3, 2024
CRYPTOMERIA LABS PTE. LTD.