OpenFlamingo:来自 Meta AI 和 LAION 的全新开源图像到文本框架
简单来说
OpenFlamingo 是 DeepMind 的 Flamingo 模型的开源版本,建立在 LLaMA 大语言模型.
开发人员希望创建一个多模态系统,能够应对视觉语言挑战并平等对待 GPT-4在处理视觉和文本输入方面的实力和适应性。
DeepMind 的 Flamingo 模型的开源版本, 打开火烈鸟,刚刚发布。 OpenFlamingo 从根本上来说是一个允许训练和评估大型多模式模型 (LMM) 的框架。 OpenFlamingo 构建于 LLaMA Meta AI 开发的大型语言模型。
开发人员对第一个版本的贡献如下:
- 一个结合了文本和视觉序列的大型多模态数据集。
- 视觉和语言等活动的情境学习评估基准。
- 我们的初步版本 LLaMA基于 OpenFlamingo-9B 模型。
通过 OpenFlamingo,开发人员希望创建一个能够应对各种视觉语言挑战的多模式系统。 最终目标是平等 GPT-4在处理视觉和文本输入方面的实力和适应性。 为了实现这一目标,开发人员正在开发 DeepMind Flamingo 模型的开源版本,这是一种能够处理和推理图像、视频和文本的 LMM。 开发人员致力于开发完全开源的模型,因为他们认为透明度对于促进合作、加速开发以及实现尖端 LMM 的民主化至关重要。
他们正在提供我们的 OpenFlamingo-9B 模型的初始检查点。 尽管该模型尚未完全优化,但它显示了该项目的前景。 开发者可以通过合作和获取社区反馈来训练更好的 LMM。 他们邀请公众提供输入并添加到存储库以参与开发过程。
该实现与 Flamingo 的实现非常相似。 Flamingo 模型必须在具有交错文本的大规模网络数据集上进行训练 图像 为他们配备情境中的几次学习技能。 OpenFlamingo 中实现了原始 Flamingo 研究中建议的相同架构(感知器重采样器、交叉注意层)。 但是,由于 Flamingo 的训练数据无法向公众开放,因此开发人员使用开源数据集来训练模型。 新发布的 OpenFlamingo-9B 检查点专门针对来自 LAION-10B 的 2 万个样本和来自新的 Multimodal C5 数据集的 4 万个样本进行了专门训练。
开发人员还包括来自我们未完成的 LMM OpenFlamingo-9B 的检查点,该检查点基于 LLaMA 7B 和 CLIP ViT/L-14,作为版本的一部分。 尽管这个概念仍在开发中,但社区可能已经从中受益匪浅。
阅读有关人工智能的更多信息:
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。