DALL-E 3 發布放大 OpenAI的影響,離開 Midjourney 和 Stable Diffusion 背後
簡單來說
DALL-E 3 將與 GPT-4,專門為 ChatGPT+ 訂閱者。
當公眾人物的名字被明確提及時,DALL-E 3 不會重新創造公眾人物的圖像。
造訪 DALL-E 3 的時間安排為 XNUMX 月。
OpenAI 推出了其最新創作: 達爾-E 3。 與前代產品不同,DALL-E 3 專注於細化細節,解決字體和複雜的身體細節(例如手指)等問題。 結果? 一系列美觀的圖像,無需複雜的提示或解決方法。
值得注意的是,此版本並沒有提供一套全面的實作細節、文章或 API。 相反,DALL-E 3 將與 GPT-4,專門為 ChatGPT+ 訂閱者。
這項發展可能不是人工智慧領域的巨大轉變,而是模型之間協作的進步。 很多人預計接下來 Stable Diffusion 模型 將提供更高的複雜性和藝術吸引力。
把它放在上下文中, OpenAIAI 影像生成的旅程相當漫長:
- 2021: DALL-E 1 是一個 12 億參數模型,在介紹時資訊有限。
- 2021: 2億參數模型GLIDE與開源300億參數模型一起亮相。
- 2022: DALL-E 2 已發布,包含 2 億個參數,並附有 unCLIP 論文和 API。
- 2023: DALL-E 3 已經登場,雖然細節可能有些神秘,但有一件事是明確的——它將與 GPT-4 對於 ChatGPT+ 訂閱者。
截至目前,DALL-E 3 的視覺效果仍有些稀少。 沒有程式碼庫、部落格文章或與最先進技術 (SOTA) 的詳細比較。 OpenAI 似乎他們把牌放在胸前。
與前身相比,該模型被認為對細微差別和細節有更深入的理解。 這意味著將您的創意概念轉化為高精度影像預計會是一個更順利的過程。
DALL-E 3 的一個有趣的承諾是它與 ChatGPT。 這意味著用戶不需要費力地製作複雜的提示; 一個簡短的描述就足夠了, ChatGPT 熟練地代表您產生詳細的提示。
OpenAI 也強調了冗長提示中上下文的重要性。 DALL-E 3 旨在擁抱冗長,使其更適合廣泛提示中描述的上下文。
然而,與任何新的人工智慧模型一樣,存在著未知的因素。 雖然最初看起來很有希望,但真正的試金石將隨著長期使用而到來。 關於其效率和運行速度的問題仍然存在。
DALL-E 3 很可能是一個多階段擴散過程,其中 GPT-4 用作文字編碼器。 這種設定的複雜機制可能仍處於保密狀態。
訪問 DALL-E 3 的時間表定於 XNUMX 月,最初是 ChatGPT 加號和 ChatGPT 企業用戶s,此後研究人員有可能獲得更廣泛的訪問權限。
細微之處 和 檢查 DALL-E 3 的
DALL-E 3 開發的主要重點是控制其功能的細緻製程。 這涉及嚴格的對齊和過濾器,旨在排除特定類型的內容。 例如,該模型堅決拒絕生成名人的圖像,以著名藝術家的風格複製藝術品,或創建任何被認為不安全的內容。 OpenAI的挑剔標準。 這種戰略方法不僅存在局限性,而且有局限性。 這是一項積極主動的措施,旨在保護公司免受潛在的法律糾紛。
然而,除了這些過濾器和對齊之外,一些有趣的觀察結果也浮出水面。 DALL-E 3 在產生逼真內容方面似乎表現出一定的弱點。 輸出的影像不是完美模仿真實照片的影像,而是具有獨特的風格化品質。 這些人工智慧製作的圖片呈現出近乎渲染且略帶塑膠感的外觀。 即使明確提示“照片”這個詞,結果仍然根深蒂固地具有其特有的風格。
值得注意的是,儘管有這些特質,DALL-E 3 確實展現了非凡的潛力。 在其創作中,有些實例與照片有著驚人的相似之處。 請記住,這些圖像的模擬現實主義不一定與同一主題的真實照片的外觀一致,尤其是在水下時。
DALL-E 3 特點與細節
讓我們花點時間篩選像素並閱讀字裡行間,以了解這款新型號真正提供的功能。
風格化的藝術: 瀏覽了一下 OpenAI的 Instagram 帳戶,您會注意到大量以精美風格化為特徵的藝術品。 雖然有一系列令人印象深刻的抽象構圖和設計,但模型似乎避開了生成照片級真實感的內容。 這裡的重點是美學和創造力,而不是模仿現實。
藝術限制:DALL-E 3 採取了與前身不同的道路。 它堅決拒絕以在世藝術家的風格創建圖像,這與 DALL-E 2 完全不同,DALL-E XNUMX 可能會模仿某些藝術家的風格。 這可能會引起創意界的關注,就像對 Stable Diffusion 2.0.
賦予藝術家權力:為了尊重藝術家的權利, OpenAI 允許藝術家將他們的作品從未來的 DALL-E 版本中排除。 透過提交他們擁有權利的圖像,藝術家可以要求將其從模型的輸出中排除。 DALL-E 的未來迭代將避免生成類似於 藝術家的風格.
安全和審查: OpenAI對安全的偏執是顯而易見的。 他們與外部「紅隊」合作測試模型的安全性,並使用輸入分類器來教導模型忽略可能導致露骨或有害內容的特定單字。 DALL-E 3 避免重新建立以下影像 公眾人物 當他們的名字被明確提及時。 名人是否屬於這一類別仍不確定,這可能會影響生成的臉的品質。
水印和跟踪:有暗示嵌入標籤來追蹤“人工智慧生成的圖像”,這表明朝著更好的監控和可能對生成的內容加水印的方向發展。
文字和手部改進: OpenAI 吹捧改進的文本生成和手動渲染,這是競爭對手的共同主張。 真正的測試在於精選範例以外的實際輸出。
空間理解:DALL-E 3 擅長理解提示中所描述的空間關係。 這增強了模型建構複雜角度和構圖的能力,儘管使用者仍在等待這項承諾的更具體證據。
提示的力量: 癥結所在 達爾-E 3 在於其迅速的能力與與 ChatGPT。 它保證了即時設計的自動化、速度和簡化。 這裡的趨勢是 chatGPT 產生提示,將模糊的想法或基本的提示轉化為雄辯的想法。 DALL-E 3 改進的上下文理解簡化了流程,使用戶能夠專注於意圖而不是冗長的內容。
未知領域: 討論中值得注意的是修復、外繪、生成填充和 3D 建模等面向。 缺乏這些功能可能是一個限制,特別是對於習慣於更通用模型的使用者而言。
訪問詳情:DALL-E 3 即將推出 ChatGPT Plus 和 Enterprise 客戶將於 XNUMX 月初推出。 然而,關於學分分配的細節 ChatGPT 另外,用戶和相關成本仍不清楚。 將透過 API 和 OpenAI 實驗室平台「在秋季晚些時候」。
整合能力:DALL-E 將無縫整合到合作夥伴和 Microsoft 產品中。 期待見證簡報、插圖、設計、徽標的生成,所有這些都在上下文中並在來自 ChatGPT。 這種整合將成為主流,對競爭對手(如 谷歌及其巴德 和表意文字。
法學碩士與視覺內容的融合:最有趣的方面在於大型語言模型(LLM)和視覺內容生成模型的融合。 它標誌著從複雜的即時工程到以更易於理解的語言表達想法的轉變。 人工智慧將從這些表達中收集背景和想法,提供難以抗拒的創造性可能性。
DALL-E 3:成為人工智慧圖像生成的新領導者
OpenAI決定將 DALL-E 3 整合到 ChatGPT 生態系統是一項策略性舉措。 此整合使 DALL-E 3 能夠存取包含 100 億活躍用戶的龐大用戶資料庫。 這一步驟顯著增強了 DALL-E 3 的可訪問性,並有可能迅速提高其受歡迎程度。
目前, Midjourney 和 Stable Diffusion 到處誇耀 15萬註冊用戶。 然而,透過這種集成,DALL-E 3 將獲得十倍的用戶群——100 億用戶。 這使得 ChatGPT 附加訂閱 plan 更具吸引力,因為它提供了聊天機器人、分析工具和圖像生成功能,而且價格實惠。
這種整合不僅對現有用戶有利,而且對新用戶也有強大的吸引力。 它擴展了 OpenAI 生態系統的影響力和受歡迎程度,吸引了尋求人工智慧生成內容解決方案的個人。
這項策略舉措可望推動 OpenAI的收入和其他關鍵指標。 該公司的投資者可能會積極看待這一發展,特別是考慮到最近的情況 客流量下降20% 在夏天。
閱讀更多相關主題:
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。