گزارش خبری پیشرفته
ممکن است 29، 2023

گوگل به مدل فلامینگو هوش مصنوعی برای نوشتن توضیحات برای ویدیوهای یوتیوب آموزش داد

به طور خلاصه

فلامینگو مشکل یافتن ویدیوهای کوتاه از طریق جستجو را با ایجاد خودکار توضیحات حل می کند.

گوگل دیپ مایند، آزمایشگاه تحقیقاتی هوش مصنوعی، دارد توسعه یک مدل زبان بصری به نام فلامینگو که قادر به نوشتن توضیحات برای ویدیوهای کوتاه در یوتیوب است. مشکلی که فلامینگو به آن می پردازد این است که مکان یابی ویدیوهای کوتاه اغلب از طریق جستجو دشوار است زیرا اطلاعات لازم در توضیحات وجود ندارد. مدل فلامینگو این مشکل را با تولید خودکار متن‌ها برای میلیون‌ها کلیپ ویدیویی کوتاه در سایت‌های میزبانی ویدیو، که از «پشت صحنه» برای فعال کردن جستجوی آسان استفاده می‌کنند، حل می‌کند. اگرچه نویسندگان ویدیو متادیتا را نمی‌بینند، اما به بینندگان کمک می‌کند تا شورت را پیدا کرده و پیمایش کنند. در حال حاضر، فلامینگو مدت‌هاست که روی کلیپ‌های جدید کار می‌کند و ویدیوهای قدیمی‌تر آپلود شده در یوتیوب را پردازش می‌کند.

گوگل به مدل فلامینگو هوش مصنوعی برای نوشتن توضیحات برای ویدیوهای یوتیوب آموزش داد
deepmind.com

در گذشته، گوگل الگوریتمی را معرفی کرد که به افراد امکان می داد با استفاده از نوار جستجو، اطلاعات درون ویدیوها را جستجو کنند. اخیراً TwelveLabs 12 میلیون دلار از سرمایه گذاران برای توسعه مشابه جمع آوری کرده است. این ابزارها فرصت های جدیدی را برای ویدیو ایجاد می کنند سازندگان محتوا برای افزایش دسترسی و دید آنها. DeepMind و استارت‌آپ‌های مشابه با استفاده از هوش مصنوعی برای بهبود و ساده‌سازی فرآیند جستجو و کشف محتوای کوتاه‌مدت، انقلابی در ویدیو ایجاد می‌کنند. خدمات جریان. آنها به توسعه فناوری‌های جستجوی هوشمندتر و کارآمدتر کمک می‌کنند و یافتن محتوایی را که واقعاً مورد علاقه‌شان است برای بینندگان ساده‌تر می‌کنند.

هوش مصنوعی نقش مهمی در ارتقای فناوری های جستجو دارد. با استفاده از هوش مصنوعی، مدل فلامینگو می‌تواند محتوا را اسکن و سریال‌سازی کند و متن‌هایی تولید کند که محتوا را خلاصه می‌کند تا به کاربران کمک کند در مسیریابی کمک کنند. مدل فلامینگو از شبکه های عصبی عمیق برای تولید توضیحات متنی یک کلیپ ویدیویی بر اساس محتوای صوتی و تصویری ویدیو استفاده می کند. این می تواند اجزای شنیداری و بصری محتوای کوتاه را به تصویر بکشد و آنها را به خلاصه ای تبدیل کند که جستجو و دسترسی به آن برای کاربران آسان باشد.

استفاده از هوش مصنوعی می‌تواند به شناسایی اطلاعات مهم برای کاربران کمک کند، که ممکن است در تلاش‌های دستی سازندگان هنگام افزودن توضیحات از دست برود. تلاش زمان‌بر برای ثبت دستی تمام جزئیات همیشه عملی نیست، به خصوص با جریان مداوم محتوای ویدیویی کوتاه‌مدت که در پلتفرم‌هایی مانند YouTube آپلود می‌شود. این می تواند منجر به سردرگمی و ناامیدی کاربر هنگام جستجوی محتوای کوتاه خاص شود. با این حال، با استفاده از مدل‌های زبان بصری، مانند فلامینگو، می‌توان ابرداده‌ها را به‌طور خودکار تولید کرد تا خلاصه‌ای برای دسترسی آسان ارائه شود، بنابراین در زمان صرفه‌جویی می‌شود و فرآیند جستجو کارآمدتر و دقیق‌تر می‌شود.

فلامینگو مدل‌های زبان بصری پیشرفته‌ای را برای کارهای باز تنظیم می‌کند

مهمترین جزئیات، معرفی فلامینگو، یک مدل زبان بصری واحد است (VLM) که وضعیت جدیدی از هنر را در یادگیری چند شات در طیف گسترده ای از وظایف چندوجهی باز و باز ایجاد می کند. فلامینگو یک مدل زبان بصری واحد (VLM) است که دوبارهdefiیادگیری چند شات در طیف گسترده ای از فعالیت های چندوجهی با پایان باز است. الف را دریافت می کند سریع متشکل از تصاویر، ویدئوها و متن به هم پیوسته به عنوان ورودی و خروجی زبان مرتبط. رابط بصری و متنی فلامینگو، مانند مدل های زبان بزرگ (LLM)، می تواند مدل را به سمت دستیابی به یک هدف چندوجهی سوق دهد. مدل را می توان با یک تصویر یا ویدیوی جدید یک سوال پرسید و سپس با ارائه چند جفت نمونه از ورودی های بصری و پاسخ های متنی مورد انتظار که در اعلان Flamingo تشکیل شده اند، یک پاسخ ساخت.

فلامینگو یک مدل زبان بصری است که مدل‌های زبانی بزرگ را با نمایش‌های بصری قدرتمند ترکیب می‌کند و بر روی مخلوطی از داده‌های چندوجهی در مقیاس بزرگ تکمیلی که فقط از وب و بدون استفاده از داده‌های حاشیه‌نویسی شده برای اهداف یادگیری ماشین آموزش داده می‌شود. هنگامی که به تعداد چهار مثال در هر کار داده می شود، همه رویکردهای یادگیری چند شات قبلی را شکست می دهد و از روش هایی که برای هر کار به طور مستقل تنظیم و بهینه شده اند و از داده های مربوط به تکلیف چندین مرتبه بزرگتر استفاده می کنند، بهتر عمل می کند. همچنین قابلیت‌های کیفی مدل را فراتر از معیارهای فعلی آن، مانند نوشتن شرح تصاویر مربوط به جنسیت و رنگ پوست و اجرای زیرنویس‌های تولید شده آن از طریق API Perspective Google، که سمیت متن را ارزیابی می‌کند، آزمایش کرد. فلامینگو امکان انطباق کارآمد با این نمونه ها و سایر وظایف را در حین پرواز بدون تغییر مدل فراهم می کند و قابلیت های گفتگوی چندوجهی خارج از جعبه را نشان می دهد.

فلامینگو یک خانواده همه منظوره از مدل‌ها است که می‌تواند برای کارهای درک تصویر و ویدیو با حداقل نمونه‌های کار خاص اعمال شود. این یک خانواده مدل‌های همه‌منظوره مؤثر و کارآمد است که می‌توان آن‌ها را با حداقل مثال‌های مختص کار برای کارهای درک تصویر و ویدیو اعمال کرد. توانایی‌های فلامینگو راه را برای تعاملات غنی با مدل‌های زبان بصری آموخته‌شده هموار می‌کند که می‌تواند تفسیرپذیری بهتر و برنامه‌های جدید هیجان‌انگیز مانند دستیار بصری را امکان‌پذیر کند.

درباره هوش مصنوعی بیشتر بخوانید:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

در میان نوسانات، اشتهای سازمانی به سمت ETF های بیت کوین رشد می کند

افشاگری از طریق پرونده های 13F نشان می دهد که سرمایه گذاران نهادی قابل توجهی در ETF های بیت کوین مشغول هستند و بر پذیرش فزاینده ...

بیشتر بدانید

روز صدور حکم فرا می رسد: با بررسی دادگاه ایالات متحده به درخواست وزارت دادگستری، سرنوشت CZ در تعادل است

چانگ پنگ ژائو امروز در دادگاهی در سیاتل آمریکا محکوم خواهد شد.

بیشتر بدانید
به انجمن فناوری نوآورانه ما بپیوندید
ادامه مطلب
ادامه مطلب
Injective با AltLayer نیروها را به هم می پیوندد تا امنیت مجدد را به inEVM بیاورد
کسب و کار گزارش خبری پیشرفته
Injective با AltLayer نیروها را به هم می پیوندد تا امنیت مجدد را به inEVM بیاورد
ممکن است 3، 2024
Masa با Teller همکاری می کند تا استخر وام MASA را معرفی کند، وام USDC را بر اساس امکان پذیر می کند
بازارها گزارش خبری پیشرفته
Masa با Teller همکاری می کند تا استخر وام MASA را معرفی کند، وام USDC را بر اساس امکان پذیر می کند
ممکن است 3، 2024
Velodrome نسخه بتا سوپرچین را در هفته‌های آینده عرضه می‌کند و در سراسر بلاک‌چین‌های OP Stack Layer 2 گسترش می‌یابد
بازارها گزارش خبری پیشرفته
Velodrome نسخه بتا سوپرچین را در هفته‌های آینده عرضه می‌کند و در سراسر بلاک‌چین‌های OP Stack Layer 2 گسترش می‌یابد
ممکن است 3، 2024
CARV شراکت با Aethir را برای تمرکززدایی لایه داده خود و توزیع جوایز اعلام می کند.
کسب و کار گزارش خبری پیشرفته
CARV شراکت با Aethir را برای تمرکززدایی لایه داده خود و توزیع جوایز اعلام می کند.
ممکن است 3، 2024
CRYPTOMERIA LABS PTE. محدود