Май 29, 2023

Google научи AI Model Flamingo да пише описания за видеоклипове в YouTube

Публикувано: 29 май 2023 г. в 2:00 ч. Актуализирано: 29 май 2023 г. в 10:55 ч.

Редактирано и проверено на фактите: 29 май 2023 г. в 2:00 ч.

Накратко

Flamingo решава проблема с кратките видеоклипове, които трудно се намират чрез търсене, като автоматично създава описания.

Google DeepMind, изследователската лаборатория за изкуствен интелект, има разработени визуален езиков модел, наречен Flamingo, способен да пише описания за кратки видеоклипове в YouTube. Проблемът, който Flamingo решава, е, че кратките видеоклипове често са трудни за намиране чрез търсене поради липсата на необходимата информация в описанието. Моделът Flamingo решава този проблем чрез автоматично генериране на текстове за милиони кратки видеоклипове в сайтове за видео хостинг, които се използват „зад кулисите“, за да позволят лесно търсене. Въпреки че авторите на видеоклиповете няма да видят метаданните, това помага на зрителите да намерят и навигират в шортите. В момента Flamingo работи върху нови клипове и обработва по-стари видеоклипове, качени в YouTube от дълго време.

Google научи AI Model Flamingo да пише описания за видеоклипове в YouTube — deepmind.com

В миналото Google въведе алгоритъм, който позволява на хората да търсят информация във видеоклипове с помощта на лентата за търсене. Наскоро TwelveLabs събра 12 милиона долара от инвеститори за подобно развитие. Тези инструменти създават нови възможности за видео създателите на съдържание за да увеличат техния обхват и видимост. Използвайки AI за подобряване и опростяване на процеса на търсене и откриване на съдържание с кратка форма, DeepMind и подобни стартиращи фирми революционизират видеото стрийминг услуги. Те допринасят за развитието на по-интелигентни и ефективни технологии за търсене, което прави още по-лесно за зрителите да намерят съдържание, което наистина ги интересува.

Изкуственият интелект играе важна роля в надграждането на технологиите за търсене. Използвайки AI, моделът Flamingo може да сканира и сериализира съдържанието и да генерира текстове, които обобщават съдържанието, за да помогнат на потребителите да навигират. Моделът Flamingo използва дълбоки невронни мрежи за генериране на текстови описания на видеоклип въз основа на аудио и визуално съдържание на видеоклипа. Той може да улови слуховите и визуалните компоненти на краткото съдържание и да ги трансформира в резюме, което е лесно за търсене и достъп от потребителите.

Използването на AI може да помогне за идентифициране на важна информация за потребителите, която може да бъде пропусната при ръчните усилия на създателите, докато добавят описания. Отнемащите време усилия за ръчно заснемане на всеки детайл не винаги са практични, особено с постоянния поток от кратко видео съдържание, качено на платформи като YouTube. Това може да доведе до объркване и разочарование на потребителите при търсене на конкретно съдържание в кратка форма. Въпреки това, с използването на визуални езикови модели, като Flamingo, метаданните могат да бъдат автоматично генерирани, за да осигурят обобщение за лесен достъп, като по този начин спестяват време и правят процеса на търсене по-ефективен и точен.

Flamingo задава нови най-съвременни визуални езикови модели за задачи с отворен край

Най-важните подробности са въвеждането на Flamingo, единен визуален езиков модел (VLM), което поставя ново ниво на изкуството в обучението с няколко изстрела върху широк спектър от отворени мултимодални задачи. Flamingo е единичен визуален езиков модел (VLM), който реdefies краткосрочно обучение в широка гама от отворени мултимодални дейности. Получава а бърз състоящ се от вложени изображения, видеоклипове и текст като вход и изход на свързания език. Визуален и текстов интерфейс на Flamingo, като тези на големи езикови модели (LLM), може да доведе модела към постигане на мултимодална цел. На модела може да бъде зададен въпрос с ново изображение или видео и след това да се конструира отговор, като се дадат няколко примерни двойки визуални входове и очаквани текстови отговори, съставени в подканата на Flamingo.

Flamingo е визуален езиков модел, който обединява големи езикови модели с мощни визуални представяния и се обучава на смес от допълващи се широкомащабни мултимодални данни, идващи само от мрежата, без да се използват данни, анотирани за целите на машинното обучение. Той побеждава всички предишни подходи за обучение с няколко изстрела, когато се дават само четири примера на задача и превъзхожда методите, които са фино настроени и оптимизирани за всяка задача поотделно и използват множество порядъци повече данни, специфични за задачата. Той също така тества качествените възможности на модела отвъд настоящите му показатели, като добавяне на надписи към изображения, свързани с пола и цвета на кожата и стартиране на генерираните от него надписи чрез API за перспектива на Google, който оценява токсичността на текста. Flamingo дава възможност за ефективно адаптиране към тези примери и други задачи в движение, без да модифицира модела, и демонстрира възможности за мултимодален диалог извън кутията.

Flamingo е фамилия от модели с общо предназначение, които могат да бъдат приложени към задачи за разбиране на изображения и видео с минимални конкретни примери за задача. Това е ефективно и ефикасно семейство от модели с общо предназначение, което може да се приложи към задачи за разбиране на изображения и видео с минимални конкретни примери за задача. Способностите на Flamingo проправят пътя към богати взаимодействия с научени визуални езикови модели, които могат да позволят по-добра интерпретируемост и вълнуващи нови приложения, като визуален асистент.

Прочетете повече за AI:

Tags:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.

Още статии

Дамир Ялалов