OpenFlamingo:來自 Meta AI 和 LAION 的全新開源圖像到文本框架
簡單來說
OpenFlamingo 是 DeepMind 的 Flamingo 模型的開源版本,建立在 LLaMA 大型語言模型.
開發人員希望創建一個多模態系統,能夠應對視覺語言挑戰並且平等對待 GPT-4在處理視覺和文字輸入方面的實力和適應性。
DeepMind 的 Flamingo 模型的開源版本, 打開火烈鳥,剛剛發布。 OpenFlamingo 從根本上來說是一個允許訓練和評估大型多模式模型 (LMM) 的框架。 OpenFlamingo 建構於 LLaMA Meta AI 開發的大型語言模型。
開發人員對第一個版本的貢獻如下:
- 一個結合了文本和視覺序列的大型多模態數據集。
- 視覺和語言等活動的情境學習評估基準。
- 我們的初步版本 LLaMA基於 OpenFlamingo-9B 模型。
透過 OpenFlamingo,開發人員希望創造一個能夠應對各種視覺語言挑戰的多模式系統。 最終目標是平等 GPT-4在處理視覺和文字輸入方面的實力和適應性。 為了實現這一目標,開發人員正在開發 DeepMind Flamingo 模型的開源版本,這是一種能夠處理和推理圖像、視訊和文字的 LMM。 開發人員致力於開發完全開源的模型,因為他們認為透明度對於促進合作、加速開發以及實現尖端 LMM 的民主化至關重要。
他們正在提供我們的 OpenFlamingo-9B 模型的初始檢查點。 儘管該模型尚未完全優化,但它顯示了該項目的前景。 開發者可以通過合作和獲取社區反饋來訓練更好的 LMM。 他們邀請公眾提供輸入並添加到存儲庫以參與開發過程。
該實現與 Flamingo 的實現非常相似。 Flamingo 模型必須在具有交錯文本的大規模網絡數據集上進行訓練 圖像 為他們配備情境中的幾次學習技能。 OpenFlamingo 中實現了原始 Flamingo 研究中建議的相同架構(感知器重採樣器、交叉注意層)。 但是,由於 Flamingo 的訓練數據無法向公眾開放,因此開發人員使用開源數據集來訓練模型。 新發布的 OpenFlamingo-9B 檢查點專門針對來自 LAION-10B 的 2 萬個樣本和來自新的 Multimodal C5 數據集的 4 萬個樣本進行了專門訓練。
開發人員還包括我們未完成的 LMM OpenFlamingo-9B 的檢查點,該檢查點基於 LLaMA 7B 和 CLIP ViT/L-14,作為版本的一部分。 儘管這個概念仍在開發中,但社區可能已經從中受益匪淺。
閱讀有關人工智能的更多信息:
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。