DALL-E 3 发布放大 OpenAI的影响,离开 Midjourney 和 Stable Diffusion 背后
简单来说
DALL-E 3 将与 GPT-4,专门为 ChatGPT+ 订阅者。
当公众人物的名字被明确提及时,DALL-E 3 不会重新创建公众人物的图像。
访问 DALL-E 3 的时间安排为 XNUMX 月。
OpenAI 推出了其最新创作: 达尔-E 3。 与前代产品不同,DALL-E 3 专注于细化细节,解决字体和复杂的身体细节(例如手指)等问题。 结果? 一系列美观的图像,无需复杂的提示或解决方法。
值得注意的是,此版本没有提供一套全面的实现细节、文章或 API。 相反,DALL-E 3 将与 GPT-4,专门为 ChatGPT+ 订阅者。
这一发展可能不是人工智能领域的巨大转变,而是模型之间协作的进步。 很多人预计接下来 Stable Diffusion 模型 将提供更高的复杂性和艺术吸引力。
把它放在上下文中, OpenAIAI 图像生成的旅程相当漫长:
- 2021年: DALL-E 1 是一个 12 亿参数模型,在介绍时信息有限。
- 2021年: 2亿参数模型GLIDE与开源300亿参数模型一起亮相。
- 2022年: DALL-E 2 已发布,包含 2 亿个参数,并附有 unCLIP 论文和 API。
- 2023年: DALL-E 3 已经登场,虽然细节可能有些神秘,但有一件事是明确的——它将与 GPT-4 ChatGPT+ 订阅者。
截至目前,DALL-E 3 的视觉效果仍然有些稀缺。 没有代码库、博客文章或与最先进技术 (SOTA) 的详细比较。 OpenAI 似乎他们把牌放在胸前。
与前身相比,该模型被认为对细微差别和细节有更深入的理解。 这意味着将您的创意概念转化为高精度图像预计会是一个更加顺利的过程。
DALL-E 3 的一项有趣的承诺是它与 ChatGPT。 这意味着用户不需要费力地制作复杂的提示; 一个简短的描述就足够了, ChatGPT 熟练地代表您生成详细的提示。
OpenAI 还强调了冗长提示中上下文的重要性。 DALL-E 3 旨在拥抱冗长,使其更适合广泛提示中描述的上下文。
然而,与任何新的人工智能模型一样,存在未知的因素。 虽然最初看起来很有希望,但真正的试金石将随着长期使用而到来。 关于其效率和运行速度的问题仍然存在。
DALL-E 3 很可能是一个多阶段扩散过程,其中 GPT-4 用作文本编码器。 这种设置的复杂机制可能仍处于保密状态。
访问 DALL-E 3 的时间表定于 XNUMX 月,最初是 ChatGPT 加号和 ChatGPT 企业用户s,此后研究人员有可能获得更广泛的访问权限。
细微之处 和 检查 DALL-E 3 的
DALL-E 3 开发的主要重点是控制其功能的细致过程。 这涉及严格的对齐和过滤器,旨在排除特定类型的内容。 例如,该模型坚决拒绝生成名人的图像,以著名艺术家的风格复制艺术品,或创建任何被认为不安全的内容。 OpenAI的挑剔标准。 这种战略方法不仅存在局限性,而且存在局限性。 这是一项积极主动的措施,旨在保护公司免受潜在的法律纠纷。
然而,除了这些过滤器和对齐之外,一些有趣的观察结果也浮出水面。 DALL-E 3 在生成逼真内容方面似乎表现出一定的弱点。 输出的图像不是完美模仿真实照片的图像,而是具有独特的风格化质量。 这些人工智能制作的图片呈现出近乎渲染且略带塑料感的外观。 即使明确提示“照片”这个词,结果仍然根深蒂固地具有其特有的风格。
值得注意的是,尽管有这些特质,DALL-E 3 确实展现出了非凡的潜力。 在其创作中,有些实例与照片有着惊人的相似之处。 请记住,这些图像的模拟现实主义不一定与同一主题的真实照片的外观一致,尤其是在水下时。
DALL-E 3 特点和细节
让我们花点时间筛选像素并阅读字里行间,以了解这款新型号真正提供的功能。
风格化的艺术: 浏览了一下 OpenAI的 Instagram 帐户,您会注意到大量以精美风格化为特征的艺术品。 虽然有一系列令人印象深刻的抽象构图和设计,但该模型似乎避开了生成照片级真实感的内容。 这里的重点是美学和创造力,而不是模仿现实。
艺术限制:DALL-E 3 采取了与其前身不同的道路。 它坚决拒绝以在世艺术家的风格创建图像,这与 DALL-E 2 完全不同,DALL-E XNUMX 可能会模仿某些艺术家的风格。 这可能会引起创意界的关注,就像对 Stable Diffusion 2.0.
赋予艺术家权力:为了尊重艺术家的权利, OpenAI 允许艺术家将他们的作品从未来的 DALL-E 版本中排除。 通过提交他们拥有权利的图像,艺术家可以请求将其从模型的输出中排除。 DALL-E 的未来迭代将避免生成类似于 艺术家的风格.
安全和审查: OpenAI对安全的偏执是显而易见的。 他们与外部“红队”合作来测试模型的安全性,并使用输入分类器来教导模型忽略可能导致露骨或有害内容的特定单词。 DALL-E 3 避免重新创建以下图像 公众人物 当他们的名字被明确提及时。 名人是否属于这一类别仍不确定,这可能会影响生成的面孔的质量。
水印和跟踪:有暗示嵌入标签来跟踪“人工智能生成的图像”,这表明朝着更好的监控和可能对生成的内容加水印的方向发展。
文字和手部改进: OpenAI 吹捧改进的文本生成和手动渲染,这是竞争对手的共同主张。 真正的测试在于精选示例之外的实际输出。
空间理解:DALL-E 3 擅长理解提示中描述的空间关系。 这增强了模型构建复杂角度和构图的能力,尽管用户仍在等待这一承诺的更具体证据。
提示的力量: 症结所在 达尔-E 3 在于其迅速的能力和与 ChatGPT。 它保证了即时设计的自动化、速度和简化。 这里的趋势是 chatGPT 生成提示,将模糊的想法或基本的提示转化为雄辩的想法。 DALL-E 3 改进的上下文理解简化了流程,使用户能够专注于意图而不是冗长的内容。
未知领域: 讨论中值得注意的是修复、外绘、生成填充和 3D 建模等方面。 缺乏这些功能可能是一个限制,特别是对于习惯于更通用模型的用户而言。
访问详细信息:DALL-E 3 即将推出 ChatGPT Plus 和 Enterprise 客户将于 XNUMX 月初推出。 然而,关于学分分配的细节 ChatGPT 另外,用户和相关成本仍不清楚。 访问将通过 API 和 OpenAI 实验室平台“在秋季晚些时候”。
整合能力:DALL-E 将无缝集成到合作伙伴和 Microsoft 产品中。 期待见证演示文稿、插图、设计、徽标的生成,所有这些都在上下文中并在来自 ChatGPT。 这种集成将成为主流,对竞争对手(如 谷歌及其巴德 和表意文字。
法学硕士与视觉内容的融合:最有趣的方面在于大型语言模型(LLM)和视觉内容生成模型的融合。 它标志着从复杂的即时工程到以更易于理解的语言表达想法的转变。 人工智能将从这些表达中收集背景和想法,提供难以抗拒的创造性可能性。
DALL-E 3:成为人工智能图像生成的新领导者
OpenAI决定将 DALL-E 3 集成到 ChatGPT 生态系统是一项战略举措。 此集成使 DALL-E 3 能够访问包含 100 亿活跃用户的庞大用户数据库。 这一步骤显着增强了 DALL-E 3 的可访问性,并有可能迅速提高其受欢迎程度。
目前, Midjourney 和 Stable Diffusion 到处夸耀 15百万注册用户。 然而,通过这种集成,DALL-E 3 将获得十倍的用户群——100 亿用户。 这使得 ChatGPT 附加订阅 plan 更具吸引力,因为它提供了聊天机器人、分析工具和图像生成功能,而且价格实惠。
这种集成不仅对现有用户有利,而且对新用户也有强大的吸引力。 它扩展了 OpenAI 生态系统的影响力和受欢迎程度,吸引了寻求人工智能生成内容解决方案的个人。
这一战略举措有望推动 OpenAI的收入和其他关键指标。 该公司的投资者可能会积极看待这一发展,特别是考虑到最近的情况 客流量下降20% 在夏天。
阅读更多相关主题:
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。