新聞報導 專業技術
2023 年 5 月 29 日

谷歌教 AI 模型 Flamingo 為 YouTube 視頻編寫描述

簡單來說

Flamingo 通過自動創建描述解決了短視頻搜索難找的問題。

AI 研究實驗室 Google DeepMind 發達 一種名為 Flamingo 的視覺語言模型,能夠為 YouTube 上的短視頻編寫描述。 Flamingo 解決的問題是,由於描述中缺乏必要的信息,短視頻通常很難通過搜索定位。 Flamingo 模型通過在視頻託管網站上為數百萬個短視頻剪輯自動生成文本來解決這個問題,這些視頻在“幕後”使用以方便搜索。 儘管視頻作者看不到元數據,但它可以幫助觀眾查找和瀏覽短片。 目前,Flamingo 一直致力於製作新剪輯並處理上傳到 YouTube 的舊視頻。

谷歌教 AI 模型 Flamingo 為 YouTube 視頻編寫描述
深度思維網

過去,谷歌推出了一種算法,使人們能夠使用搜索欄在視頻中搜索信息。 最近,TwelveLabs 從投資者那裡籌集了 12 萬美元用於類似的開發。 這些工具為視頻創造了新的機會 內容創作者 以增加他們的影響力和知名度。 通過利用 AI 改進和簡化短格式內容的搜索過程和發現,DeepMind 和類似的初創公司正在徹底改變視頻 流媒體服務. 他們正在為開發更智能、更高效的搜索技術做出貢獻,讓觀眾更容易找到他們真正感興趣的內容。

人工智能在升級搜索技術方面發揮著重要作用。 通過利用 AI,Flamingo 模型可以掃描和序列化內容,並生成總結內容的文本以幫助用戶導航。 Flamingo 模型使用深度神經網絡根據視頻的音頻和視覺內容生成視頻剪輯的文本描述。 它可以捕獲短格式內容的聽覺和視覺成分,並將它們轉化為易於用戶搜索和訪問的摘要。

人工智能的使用可以幫助用戶識別重要信息,這些信息可能會在創作者手動添加描述時遺漏。 手動捕獲每個細節的耗時工作並不總是可行的,尤其是在 YouTube 等平台上上傳的短視頻內容源源不斷的情況下。 這可能會導致用戶在搜索特定的簡短內容時感到困惑和沮喪。 然而,通過使用 Flamingo 等可視化語言模型,可以自動生成元數據以提供易於訪問的摘要,從而節省時間並使搜索過程更加高效和準確。

Flamingo 為開放式任務設置了新的最先進的視覺語言模型

最重要的細節是 Flamingo 的引入,這是一個單一的視覺語言模型(VLM)這為廣泛的開放式多模態任務的少樣本學習設定了新的技術水平。 Flamingo 是一種單一視覺語言模型 (VLM)defi在廣泛的開放式多模式活動中進行少量學習。 它接收到一個 提示 由交錯的圖像、視頻和文本組成,作為輸入並輸出相關語言。 Flamingo 的視覺和文本界面,就像大型語言模型的界面(法學碩士),可以引導模型實現多模式目標。 可以用新鮮的圖像或視頻向模型提出問題,然後給出 Flamingo 提示中包含的幾對視覺輸入和預期文本響應的示例,然後構建答案。

Flamingo 是一種視覺語言模型,它將大型語言模型與強大的視覺表示融合在一起,並使用僅來自網絡的互補性大規模多模態數據的混合物進行訓練,而沒有使用任何為機器學習目的註釋的數據。 當每個任務只給出四個示例時,它擊敗了所有以前的小樣本學習方法,並且優於針對每個任務獨立微調和優化並使用多個數量級的更多任務特定數據的方法。 它還測試了該模型超出其當前基準的定性能力,例如為與性別和膚色相關的圖像添加字幕,並通過谷歌的 Perspective API 運行其生成的字幕,該 API 可評估文本的毒性。 Flamingo 可以在不修改模型的情況下高效地即時適應這些示例和其他任務,並展示開箱即用的多模式對話功能。

Flamingo 是一個通用模型系列,可以應用於圖像和視頻理解任務,只需要最少的任務特定示例。 它是一個有效且高效的通用模型系列,可以通過最少的任務特定示例應用於圖像和視頻理解任務。 Flamingo 的能力為與學習的視覺語言模型進行豐富的交互鋪平了道路,這些模型可以實現更好的可解釋性和令人興奮的新應用程序,如視覺助手。

閱讀有關人工智能的更多信息:

免責聲明

在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。

關於作者

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

更多文章
達米爾亞拉洛夫
達米爾亞拉洛夫

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

Hot Stories

Polygon發布治理中心,為社區治理提供統一透明接口 

by 艾莉莎戴維森
2024 年 6 月 14 日
加入我們的時事通訊。
最新消息

Polygon發布治理中心,為社區治理提供統一透明接口 

by 艾莉莎戴維森
2024 年 6 月 14 日

從 Ripple 到大型綠色 DAO:加密貨幣專案如何為慈善事業做出貢獻

讓我們探索利用數位貨幣潛力進行慈善事業的措施。

了解更多

AlphaFold 3、Med-Gemini 等:2024 年人工智慧改變醫療保健的方式

人工智慧在醫療保健領域有多種表現形式,從發現新的遺傳相關性到增強機器人手術系統的能力…

了解更多
加入我們的創新技術社區
了解更多
阅读更多
加密貨幣交易所 Jupiter 將在未來幾週內推出 Jupiter Swap V3、動態滑點等重要更新
市場 新聞報導 專業技術
加密貨幣交易所 Jupiter 將在未來幾週內推出 Jupiter Swap V3、動態滑點等重要更新
2024 年 6 月 14 日
Polygon發布治理中心,為社區治理提供統一透明接口
新聞報導 專業技術
Polygon發布治理中心,為社區治理提供統一透明接口 
2024 年 6 月 14 日
30 年幣安註冊新用戶超過 2024 萬,客戶資產突破 100 億美元里程碑
市場 新聞報導 專業技術
30 年幣安註冊新用戶超過 2024 萬,客戶資產突破 100 億美元里程碑
2024 年 6 月 14 日
亞馬遜投資 230 億美元支援生成式 AI 新創公司,並為其第二個 AWS 生成式 AI 加速器計畫分配 80 萬美元
商業 新聞報導 專業技術
亞馬遜投資 230 億美元支援生成式 AI 新創公司,並為其第二個 AWS 生成式 AI 加速器計畫分配 80 萬美元
2024 年 6 月 14 日