Google, AI Model Flamingo-ya YouTube Videoları üçün təsvirlər yazmağı öyrətdi
Qısaca
Flamingo avtomatik təsvirlər yaratmaqla axtarış vasitəsilə çətin tapılan qısa videolar problemini həll edir.
Google DeepMind, süni intellekt tədqiqat laboratoriyası var inkişaf etmiş YouTube-da qısa videolar üçün təsvirlər yaza bilən Flamingo adlı vizual dil modeli. Flamingo-nun həll etdiyi problem, təsvirdə lazımi məlumatların olmaması səbəbindən qısa videoların axtarış vasitəsilə tapılmasının çox vaxt çətin olmasıdır. Flamingo modeli asan axtarışı təmin etmək üçün “pərdə arxasında” istifadə edilən video hostinq saytlarında milyonlarla qısa video kliplər üçün avtomatik mətnlər yaratmaqla bu problemi həll edir. Video müəllifləri metadatanı görməsələr də, bu, izləyicilərə şortları tapmağa və yönləndirməyə kömək edir. Hazırda Flamingo uzun müddətdir ki, yeni kliplər üzərində işləyir və YouTube-a yüklənmiş köhnə videoları emal edir.
Keçmişdə Google insanlara axtarış çubuğundan istifadə edərək videoların içərisində məlumat axtarmağa imkan verən bir alqoritm təqdim etdi. Bu yaxınlarda TwelveLabs oxşar inkişaf üçün investorlardan 12 milyon dollar topladı. Bu alətlər video üçün yeni imkanlar yaradır məzmun yaradıcıları onların əhatə dairəsini və görmə qabiliyyətini artırmaq. Axtarış prosesini və qısa məzmunlu məzmunun kəşfini təkmilləşdirmək və sadələşdirmək üçün süni intellektdən istifadə etməklə, DeepMind və oxşar startaplar videoda inqilab edir. axın xidmətləri. Onlar daha ağıllı və səmərəli axtarış texnologiyalarının inkişafına töhfə verir, izləyicilərin onları həqiqətən maraqlandıran məzmunu tapmasını daha da asanlaşdırır.
Süni intellekt axtarış texnologiyalarının təkmilləşdirilməsində mühüm rol oynayır. Süni intellektdən istifadə etməklə, Flamingo modeli məzmunu skan edə və seriallaşdıra və istifadəçilərə naviqasiyaya kömək etmək üçün məzmunu ümumiləşdirən mətnlər yarada bilər. Flamingo modeli videonun audio və vizual məzmunu əsasında videoklipin mətn təsvirlərini yaratmaq üçün dərin neyron şəbəkələrdən istifadə edir. O, qısa formada məzmunun eşitmə və vizual komponentlərini ələ keçirə və onları istifadəçilərin axtarması və əldə etməsi asan olan xülasəyə çevirə bilər.
Süni intellektdən istifadə istifadəçilər üçün vacib məlumatları müəyyən etməyə kömək edə bilər ki, bu da təsvirlər əlavə edərkən yaradıcıların əl səylərində əldən düşə bilər. Hər bir detalı əl ilə çəkmək üçün çox vaxt aparan səylər həmişə praktiki deyil, xüsusən də YouTube kimi platformalara yüklənmiş qısa formalı video məzmunun daimi axını ilə. Bu, xüsusi qısa formada məzmunu axtararkən istifadəçinin çaşqınlığına və məyusluğuna səbəb ola bilər. Bununla belə, Flamingo kimi vizual dil modellərinin istifadəsi ilə metadata asanlıqla əldə etmək üçün xülasə təmin etmək üçün avtomatik olaraq yaradıla bilər, beləliklə, vaxta qənaət edir və axtarış prosesini daha səmərəli və dəqiq edir.
Flamingo Açıq Uçlu Tapşırıqlar üçün Yeni Ən Müasir Vizual Dil Modellərini Hazırlayır
Ən vacib detallar tək vizual dil modeli olan Flamingo-nun təqdimatıdır (VLM) geniş çeşidli açıq multimodal tapşırıqlar üzrə bir neçə vuruşla öyrənmədə yeni bir sənət səviyyəsini təyin edir. Flamingo tək vizual dil modelidir (VLM).defigeniş çeşidli açıq multimodal fəaliyyətlər üzrə bir neçə dəfə öyrənmə imkanı verir. a alır tez giriş kimi interleaved şəkillər, videolar və mətndən ibarətdir və əlaqəli dili çıxarır. Flamingonun vizual və mətn interfeysi, böyük dil modelləri kimi (LLMs), modeli multimodal məqsədə çatmağa yönəldə bilər. Modelə təzə şəkil və ya video ilə sual verilə bilər və sonra Flamingonun əmrində tərtib edilmiş vizual daxiletmələrin və gözlənilən mətn cavablarının bir neçə nümunəsi verilərək, cavab qura bilər.
Flamingo, böyük dil modellərini güclü vizual təsvirlərlə birləşdirən vizual dil modelidir və maşın öyrənməsi məqsədləri üçün qeyd edilmiş heç bir məlumatdan istifadə etmədən yalnız internetdən gələn tamamlayıcı genişmiqyaslı multimodal məlumatların qarışığı üzərində öyrədilir. Hər bir tapşırıq üçün ən az dörd nümunə verildikdə o, bütün əvvəlki bir neçə atışlı öyrənmə yanaşmalarını üstələyir və hər bir tapşırıq üçün müstəqil olaraq incə sazlanan və optimallaşdırılan metodları üstələyir və daha çox tapşırıq üçün xüsusi verilənlərdən istifadə edir. O, həmçinin modelin cins və dəri rəngi ilə bağlı şəkillərə başlıq yazmaq və mətnin toksikliyini qiymətləndirən Google-un Perspective API vasitəsilə yaradılan başlıqlarını işə salmaq kimi hazırkı meyarlarından kənar keyfiyyət imkanlarını sınaqdan keçirib. Flamingo modeli dəyişdirmədən bu nümunələrə və digər tapşırıqlara operativ şəkildə uyğunlaşmağı mümkün edir və hazır multimodal dialoq imkanlarını nümayiş etdirir.
Flamingo ümumi təyinatlı modellər ailəsidir və minimum tapşırıqlara aid nümunələrlə şəkil və videoların anlaşılması tapşırıqlarına tətbiq edilə bilər. Bu, minimum tapşırıq xüsusi nümunələri ilə şəkil və videoların anlaşılması tapşırıqlarına tətbiq oluna bilən effektiv və səmərəli ümumi təyinatlı modellər ailəsidir. Flamingonun qabiliyyətləri vizual köməkçi kimi daha yaxşı şərh oluna və maraqlı yeni tətbiqlərə imkan verə bilən öyrənilmiş vizual dil modelləri ilə zəngin qarşılıqlı əlaqəyə yol açır.
AI haqqında daha çox oxuyun:
Məsuliyyətdən imtina
uyğun olaraq Güvən Layihəsi qaydaları, lütfən nəzərə alın ki, bu səhifədə təqdim olunan məlumat hüquqi, vergi, investisiya, maliyyə və ya hər hansı digər məsləhət forması kimi təfsir edilməməlidir və təfsir edilməməlidir. Yalnız itirə biləcəyiniz şeyə investisiya qoymaq və hər hansı bir şübhəniz varsa, müstəqil maliyyə məsləhətləri axtarmaq vacibdir. Əlavə məlumat üçün biz emitent və ya reklamçı tərəfindən təmin edilən şərtlər və şərtlərə, həmçinin yardım və dəstək səhifələrinə müraciət etməyi təklif edirik. MetaversePost dəqiq, qərəzsiz hesabat verməyə sadiqdir, lakin bazar şərtləri xəbərdarlıq edilmədən dəyişdirilə bilər.
Müəllif haqqında
Damir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi.
Ətraflı məqalələrDamir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi.