Травень 29, 2023

Google навчив AI Model Flamingo писати описи для відео YouTube

by Дамір Ялалов

Опубліковано: 29 травня 2023 о 2:00 Оновлено: 29 травня 2023 о 10:55

by Кароліна Гащ

Відредаговано та перевірено: 29 травня 2023 р. о 2:00

Коротко

Flamingo вирішує проблему коротких відео, які важко знайти за допомогою пошуку, автоматично створюючи описи.

Google DeepMind, дослідницька лабораторія ШІ, має розвиненою візуальна модель мови під назвою Flamingo, здатна писати описи для коротких відео на YouTube. Проблема, яку вирішує Flamingo, полягає в тому, що короткі відео часто важко знайти за допомогою пошуку через відсутність необхідної інформації в описі. Модель Flamingo вирішує цю проблему, автоматично генеруючи тексти для мільйонів коротких відеороликів на сайтах відеохостингу, які використовуються «за лаштунками» для полегшення пошуку. Хоча автори відео не бачитимуть метаданих, це допомагає глядачам знаходити короткі фільми та орієнтуватися в них. Зараз Flamingo працює над новими кліпами та обробляє старі відео, які вже давно завантажені на YouTube.

Google навчив AI Model Flamingo писати описи для відео YouTube — deepmind.com

Раніше Google представив алгоритм, який дозволяє людям шукати інформацію у відео за допомогою панелі пошуку. Нещодавно TwelveLabs залучила 12 мільйонів доларів від інвесторів для подібної розробки. Ці інструменти створюють нові можливості для відео творці контенту щоб збільшити їх охоплення та видимість. Використовуючи AI для покращення та спрощення процесу пошуку та виявлення короткого вмісту, DeepMind та подібні стартапи роблять революцію у відео Послуги потокового передавання. Вони сприяють розробці більш інтелектуальних і ефективних технологій пошуку, завдяки чому глядачам стає ще простіше знаходити вміст, який їх справді цікавить.

Штучний інтелект відіграє значну роль в модернізації пошукових технологій. Використовуючи штучний інтелект, модель Flamingo може сканувати та серіалізувати вміст і генерувати тексти, які підсумовують вміст, щоб допомогти користувачам орієнтуватися. Модель Flamingo використовує глибокі нейронні мережі для створення текстових описів відеокліпу на основі аудіо- та візуального вмісту відео. Він може фіксувати звукові та візуальні компоненти короткого вмісту та перетворювати їх у короткий виклад, який користувачі легко шукають і мають доступ.

Використання штучного інтелекту може допомогти визначити важливу інформацію для користувачів, яку автори можуть упустити вручну під час додавання описів. Робота над фіксацією кожної деталі вручну, яка потребує багато часу, не завжди практична, особливо з постійним потоком короткого відеоконтенту, який завантажується на такі платформи, як YouTube. Це може призвести до плутанини та розчарування користувачів під час пошуку конкретного короткого вмісту. Однак із використанням візуальних мовних моделей, таких як Flamingo, метадані можуть бути автоматично згенеровані, щоб забезпечити короткий доступ до них, заощаджуючи час і роблячи процес пошуку більш ефективним і точним.

Flamingo створює нові найсучасніші моделі візуальної мови для відкритих завдань

Найважливішими деталями є введення Flamingo, єдиної моделі візуальної мови (VLM), що встановлює новий рівень мистецтва в невеликому навчанні для широкого спектру відкритих мультимодальних завдань. Flamingo — це єдина візуальна мовна модель (VLM), яка реdefiНещодавнє навчання в широкому діапазоні відкритих мультимодальних видів діяльності. Він отримує a підказка складається з зображень, відео та тексту, що перемежовуються, як введення та виводить пов’язану мову. Візуальний і текстовий інтерфейс Flamingo, як і у великих мовних моделях (LLM), може привести модель до досягнення мультимодальної мети. Моделі можна поставити запитання зі свіжим зображенням або відео, а потім побудувати відповідь, надавши кілька прикладів пар візуальних вводів і очікуваних текстових відповідей, складених у підказку Flamingo.

Flamingo — це модель візуальної мови, яка поєднує великі мовні моделі з потужними візуальними представленнями та навчається на суміші додаткових великомасштабних мультимодальних даних, що надходять лише з Інтернету, без використання анотованих даних для цілей машинного навчання. Він перевершує всі попередні підходи до нешвидкого навчання, коли дає лише чотири приклади на завдання, і перевершує методи, які точно налаштовані та оптимізовані для кожного окремого завдання та використовують на кілька порядків більше даних, пов’язаних із завданням. Він також перевірив якісні можливості моделі поза її поточними тестами, такі як підписи до зображень, пов’язаних із статтю та кольором шкіри, і запуск згенерованих підписів через Google Perspective API, який оцінює токсичність тексту. Flamingo дає змогу ефективно адаптуватися до цих прикладів та інших завдань на льоту, не модифікуючи модель, і демонструє готові можливості мультимодального діалогу.

Flamingo — це сімейство моделей загального призначення, які можна застосовувати до завдань із розумінням зображень і відео з мінімальною кількістю конкретних прикладів. Це ефективне й ефективне сімейство моделей загального призначення, яке можна застосовувати до завдань із розумінням зображень і відео з мінімальною кількістю конкретних прикладів для завдань. Здібності Flamingo прокладають шлях до різноманітних взаємодій із вивченими моделями візуальної мови, які можуть забезпечити кращу інтерпретацію та захоплюючі нові програми, такі як візуальний помічник.

Докладніше про ШІ:

Ключові слова:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.

інші статті

Дамір Ялалов