新闻报道 专业技术
2023 年 5 月 29 日

谷歌教 AI 模型 Flamingo 为 YouTube 视频编写描述

简单来说

Flamingo 通过自动创建描述解决了短视频搜索难找的问题。

AI 研究实验室 Google DeepMind 发达 一种名为 Flamingo 的视觉语言模型,能够为 YouTube 上的短视频编写描述。 Flamingo 解决的问题是,由于描述中缺乏必要的信息,短视频通常很难通过搜索定位。 Flamingo 模型通过在视频托管网站上为数百万个短视频剪辑自动生成文本来解决这个问题,这些视频在“幕后”使用以方便搜索。 尽管视频作者看不到元数据,但它可以帮助观众查找和浏览短片。 目前,Flamingo 一直致力于制作新剪辑并处理上传到 YouTube 的旧视频。

谷歌教 AI 模型 Flamingo 为 YouTube 视频编写描述
深度思维网

过去,谷歌推出了一种算法,使人们能够使用搜索栏在视频中搜索信息。 最近,TwelveLabs 从投资者那里筹集了 12 万美元用于类似的开发。 这些工具为视频创造了新的机会 内容创作者 以增加他们的影响力和知名度。 通过利用 AI 改进和简化短格式内容的搜索过程和发现,DeepMind 和类似的初创公司正在彻底改变视频 流媒体服务. 他们正在为开发更智能、更高效的搜索技术做出贡献,让观众更容易找到他们真正感兴趣的内容。

人工智能在升级搜索技术方面发挥着重要作用。 通过利用 AI,Flamingo 模型可以扫描和序列化内容,并生成总结内容的文本以帮助用户导航。 Flamingo 模型使用深度神经网络根据视频的音频和视觉内容生成视频剪辑的文本描述。 它可以捕获短格式内容的听觉和视觉成分,并将它们转化为易于用户搜索和访问的摘要。

人工智能的使用可以帮助用户识别重要信息,这些信息可能会在创作者手动添加描述时遗漏。 手动捕获每个细节的耗时工作并不总是可行的,尤其是在 YouTube 等平台上上传的短视频内容源源不断的情况下。 这可能会导致用户在搜索特定的简短内容时感到困惑和沮丧。 然而,通过使用 Flamingo 等可视化语言模型,可以自动生成元数据以提供易于访问的摘要,从而节省时间并使搜索过程更加高效和准确。

Flamingo 为开放式任务设置了新的最先进的视觉语言模型

最重要的细节是 Flamingo 的引入,这是一个单一的视觉语言模型(VLM)这为广泛的开放式多模态任务的少样本学习设定了新的技术水平。 Flamingo 是一种单一视觉语言模型 (VLM)defi在广泛的开放式多模式活动中进行少量学习。 它接收到一个 提示 由交错的图像、视频和文本组成,作为输入并输出相关语言。 Flamingo 的视觉和文本界面,就像大型语言模型的界面(法学硕士),可以引导模型实现多模式目标。 可以用新鲜的图像或视频向模型提出问题,然后给出 Flamingo 提示中包含的几对视觉输入和预期文本响应的示例,然后构建答案。

Flamingo 是一种视觉语言模型,它将大型语言模型与强大的视觉表示融合在一起,并使用仅来自网络的互补性大规模多模态数据的混合物进行训练,而没有使用任何为机器学习目的注释的数据。 当每个任务只给出四个示例时,它击败了所有以前的小样本学习方法,并且优于针对每个任务独立微调和优化并使用多个数量级的更多任务特定数据的方法。 它还测试了该模型超出其当前基准的定性能力,例如为与性别和肤色相关的图像添加字幕,并通过谷歌的 Perspective API 运行其生成的字幕,该 API 可评估文本的毒性。 Flamingo 可以在不修改模型的情况下高效地即时适应这些示例和其他任务,并展示开箱即用的多模式对话功能。

Flamingo 是一个通用模型系列,可以应用于图像和视频理解任务,只需要最少的任务特定示例。 它是一个有效且高效的通用模型系列,可以通过最少的任务特定示例应用于图像和视频理解任务。 Flamingo 的能力为与学习的视觉语言模型进行丰富的交互铺平了道路,这些模型可以实现更好的可解释性和令人兴奋的新应用程序,如视觉助手。

阅读有关人工智能的更多信息:

免责声明

在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

更多文章
达米尔亚拉洛夫
达米尔亚拉洛夫

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

Hot Stories

Injective 与 AltLayer 联手为 inEVM 带来重新抵押安全性

by 艾丽莎·戴维森
2024 年 5 月 03 日

Masa 与 Teller 合作推出 MASA 借贷池,支持 USDC 借贷

by 艾丽莎·戴维森
2024 年 5 月 03 日

CARV 宣布与 Aethir 合作,以分散其数据层并分配奖励

by 艾丽莎·戴维森
2024 年 5 月 03 日
加入我们的时事通讯。
最新消息

Injective 与 AltLayer 联手为 inEVM 带来重新抵押安全性

by 艾丽莎·戴维森
2024 年 5 月 03 日

Masa 与 Teller 合作推出 MASA 借贷池,支持 USDC 借贷

by 艾丽莎·戴维森
2024 年 5 月 03 日

CARV 宣布与 Aethir 合作,以分散其数据层并分配奖励

by 艾丽莎·戴维森
2024 年 5 月 03 日

在波动中机构对比特币 ETF 的兴趣增强

通过 13F 文件披露的信息显示,著名机构投资者涉足比特币 ETF,突显出人们越来越接受......

了解更多

宣判日到来:美国法院考虑司法部的认罪,CZ 的命运悬而未决

赵长鹏将于今天在西雅图的美国法院接受宣判。

了解更多
加入我们的创新技术社区
了解更多
查看更多
Injective 与 AltLayer 联手为 inEVM 带来重新抵押安全性
企业 新闻报道 专业技术
Injective 与 AltLayer 联手为 inEVM 带来重新抵押安全性
2024 年 5 月 3 日
Masa 与 Teller 合作推出 MASA 借贷池,支持 USDC 借贷
市场 新闻报道 专业技术
Masa 与 Teller 合作推出 MASA 借贷池,支持 USDC 借贷
2024 年 5 月 3 日
Velodrome 将在未来几周内推出 Superchain Beta 版本,并在 OP 堆栈第 2 层区块链上进行扩展
市场 新闻报道 专业技术
Velodrome 将在未来几周内推出 Superchain Beta 版本,并在 OP 堆栈第 2 层区块链上进行扩展
2024 年 5 月 3 日
CARV 宣布与 Aethir 合作,以分散其数据层并分配奖励
企业 新闻报道 专业技术
CARV 宣布与 Aethir 合作,以分散其数据层并分配奖励
2024 年 5 月 3 日