گوگل به مدل فلامینگو هوش مصنوعی برای نوشتن توضیحات برای ویدیوهای یوتیوب آموزش داد
به طور خلاصه
فلامینگو مشکل یافتن ویدیوهای کوتاه از طریق جستجو را با ایجاد خودکار توضیحات حل می کند.
گوگل دیپ مایند، آزمایشگاه تحقیقاتی هوش مصنوعی، دارد توسعه یک مدل زبان بصری به نام فلامینگو که قادر به نوشتن توضیحات برای ویدیوهای کوتاه در یوتیوب است. مشکلی که فلامینگو به آن می پردازد این است که مکان یابی ویدیوهای کوتاه اغلب از طریق جستجو دشوار است زیرا اطلاعات لازم در توضیحات وجود ندارد. مدل فلامینگو این مشکل را با تولید خودکار متنها برای میلیونها کلیپ ویدیویی کوتاه در سایتهای میزبانی ویدیو، که از «پشت صحنه» برای فعال کردن جستجوی آسان استفاده میکنند، حل میکند. اگرچه نویسندگان ویدیو متادیتا را نمیبینند، اما به بینندگان کمک میکند تا شورت را پیدا کرده و پیمایش کنند. در حال حاضر، فلامینگو مدتهاست که روی کلیپهای جدید کار میکند و ویدیوهای قدیمیتر آپلود شده در یوتیوب را پردازش میکند.
در گذشته، گوگل الگوریتمی را معرفی کرد که به افراد امکان می داد با استفاده از نوار جستجو، اطلاعات درون ویدیوها را جستجو کنند. اخیراً TwelveLabs 12 میلیون دلار از سرمایه گذاران برای توسعه مشابه جمع آوری کرده است. این ابزارها فرصت های جدیدی را برای ویدیو ایجاد می کنند سازندگان محتوا برای افزایش دسترسی و دید آنها. DeepMind و استارتآپهای مشابه با استفاده از هوش مصنوعی برای بهبود و سادهسازی فرآیند جستجو و کشف محتوای کوتاهمدت، انقلابی در ویدیو ایجاد میکنند. خدمات جریان. آنها به توسعه فناوریهای جستجوی هوشمندتر و کارآمدتر کمک میکنند و یافتن محتوایی را که واقعاً مورد علاقهشان است برای بینندگان سادهتر میکنند.
هوش مصنوعی نقش مهمی در ارتقای فناوری های جستجو دارد. با استفاده از هوش مصنوعی، مدل فلامینگو میتواند محتوا را اسکن و سریالسازی کند و متنهایی تولید کند که محتوا را خلاصه میکند تا به کاربران کمک کند در مسیریابی کمک کنند. مدل فلامینگو از شبکه های عصبی عمیق برای تولید توضیحات متنی یک کلیپ ویدیویی بر اساس محتوای صوتی و تصویری ویدیو استفاده می کند. این می تواند اجزای شنیداری و بصری محتوای کوتاه را به تصویر بکشد و آنها را به خلاصه ای تبدیل کند که جستجو و دسترسی به آن برای کاربران آسان باشد.
استفاده از هوش مصنوعی میتواند به شناسایی اطلاعات مهم برای کاربران کمک کند، که ممکن است در تلاشهای دستی سازندگان هنگام افزودن توضیحات از دست برود. تلاش زمانبر برای ثبت دستی تمام جزئیات همیشه عملی نیست، به خصوص با جریان مداوم محتوای ویدیویی کوتاهمدت که در پلتفرمهایی مانند YouTube آپلود میشود. این می تواند منجر به سردرگمی و ناامیدی کاربر هنگام جستجوی محتوای کوتاه خاص شود. با این حال، با استفاده از مدلهای زبان بصری، مانند فلامینگو، میتوان ابردادهها را بهطور خودکار تولید کرد تا خلاصهای برای دسترسی آسان ارائه شود، بنابراین در زمان صرفهجویی میشود و فرآیند جستجو کارآمدتر و دقیقتر میشود.
فلامینگو مدلهای زبان بصری پیشرفتهای را برای کارهای باز تنظیم میکند
مهمترین جزئیات، معرفی فلامینگو، یک مدل زبان بصری واحد است (VLM) که وضعیت جدیدی از هنر را در یادگیری چند شات در طیف گسترده ای از وظایف چندوجهی باز و باز ایجاد می کند. فلامینگو یک مدل زبان بصری واحد (VLM) است که دوبارهdefiیادگیری چند شات در طیف گسترده ای از فعالیت های چندوجهی با پایان باز است. الف را دریافت می کند سریع متشکل از تصاویر، ویدئوها و متن به هم پیوسته به عنوان ورودی و خروجی زبان مرتبط. رابط بصری و متنی فلامینگو، مانند مدل های زبان بزرگ (LLM)، می تواند مدل را به سمت دستیابی به یک هدف چندوجهی سوق دهد. مدل را می توان با یک تصویر یا ویدیوی جدید یک سوال پرسید و سپس با ارائه چند جفت نمونه از ورودی های بصری و پاسخ های متنی مورد انتظار که در اعلان Flamingo تشکیل شده اند، یک پاسخ ساخت.
فلامینگو یک مدل زبان بصری است که مدلهای زبانی بزرگ را با نمایشهای بصری قدرتمند ترکیب میکند و بر روی مخلوطی از دادههای چندوجهی در مقیاس بزرگ تکمیلی که فقط از وب و بدون استفاده از دادههای حاشیهنویسی شده برای اهداف یادگیری ماشین آموزش داده میشود. هنگامی که به تعداد چهار مثال در هر کار داده می شود، همه رویکردهای یادگیری چند شات قبلی را شکست می دهد و از روش هایی که برای هر کار به طور مستقل تنظیم و بهینه شده اند و از داده های مربوط به تکلیف چندین مرتبه بزرگتر استفاده می کنند، بهتر عمل می کند. همچنین قابلیتهای کیفی مدل را فراتر از معیارهای فعلی آن، مانند نوشتن شرح تصاویر مربوط به جنسیت و رنگ پوست و اجرای زیرنویسهای تولید شده آن از طریق API Perspective Google، که سمیت متن را ارزیابی میکند، آزمایش کرد. فلامینگو امکان انطباق کارآمد با این نمونه ها و سایر وظایف را در حین پرواز بدون تغییر مدل فراهم می کند و قابلیت های گفتگوی چندوجهی خارج از جعبه را نشان می دهد.
فلامینگو یک خانواده همه منظوره از مدلها است که میتواند برای کارهای درک تصویر و ویدیو با حداقل نمونههای کار خاص اعمال شود. این یک خانواده مدلهای همهمنظوره مؤثر و کارآمد است که میتوان آنها را با حداقل مثالهای مختص کار برای کارهای درک تصویر و ویدیو اعمال کرد. تواناییهای فلامینگو راه را برای تعاملات غنی با مدلهای زبان بصری آموختهشده هموار میکند که میتواند تفسیرپذیری بهتر و برنامههای جدید هیجانانگیز مانند دستیار بصری را امکانپذیر کند.
درباره هوش مصنوعی بیشتر بخوانید:
سلب مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشترDamir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.