Bộ khuếch đại phát hành DALL-E 3 OpenAIẢnh hưởng của, Rời đi Midjourney và Stable Diffusion Phía sau
Tóm lại
DALL-E 3 được thiết lập để tích hợp liền mạch với GPT-4, được thiết kế riêng cho ChatGPT+ người đăng ký.
DALL-E 3 hạn chế tái tạo hình ảnh của các nhân vật của công chúng khi tên của họ được nhắc đến một cách rõ ràng.
Dòng thời gian truy cập vào DALL-E 3 được ấn định vào tháng XNUMX.
OpenAI đã tiết lộ sáng tạo mới nhất của mình: DALL-E3. Không giống như các phiên bản trước, DALL-E 3 tập trung vào việc tinh chỉnh các chi tiết vụn vặt, giải quyết các vấn đề như chữ và các chi tiết cơ thể phức tạp, chẳng hạn như ngón tay. Kết quả? Một loạt các hình ảnh mang tính thẩm mỹ mà không cần lời nhắc hoặc cách giải quyết phức tạp.
Điều quan trọng cần lưu ý là bản phát hành này không đi kèm với bộ chi tiết, bài viết hoặc API triển khai toàn diện. Thay vào đó, DALL-E 3 được thiết lập để tích hợp liền mạch với GPT-4, được thiết kế riêng cho ChatGPT+ người đăng ký.
Sự phát triển này có thể không phải là một sự thay đổi địa chấn trong bối cảnh AI mà là một bước tiến trong sự hợp tác giữa các mô hình. Nhiều người dự đoán rằng tiếp theo Stable Diffusion kiểu mẫu sẽ mang đến sự tinh tế và hấp dẫn nghệ thuật hơn nữa.
Để đặt nó trong ngữ cảnh, OpenAIhành trình tạo hình ảnh bằng AI của chúng tôi đã trải qua một chặng đường khá dài:
- 2021: DALL-E 1, mô hình 12 tỷ tham số, được giới thiệu với thông tin hạn chế.
- 2021: GLIDE, một mô hình tham số 2 tỷ, đã được ra mắt cùng với các mô hình tham số 300 triệu nguồn mở.
- 2022: DALL-E 2 đã xuất hiện, có 2 tỷ thông số, kèm theo giấy và API unCLIP.
- 2023: DALL-E 3 đã xuất hiện và mặc dù các chi tiết có thể hơi khó hiểu nhưng có một điều rõ ràng là nó sẽ tích hợp với GPT-4 cho ChatGPT+ người đăng ký.
Tính đến thời điểm hiện tại, hình ảnh của DALL-E 3 vẫn còn khá khan hiếm. Không có cơ sở mã, bài đăng trên blog hoặc so sánh chi tiết với phiên bản hiện đại nhất (SOTA). OpenAI dường như đang giữ những lá bài gần ngực của họ.
Mẫu này được quảng cáo là có khả năng hiểu biết sâu sắc hơn về các sắc thái và chi tiết so với các phiên bản tiền nhiệm. Điều này có nghĩa là việc chuyển các khái niệm sáng tạo của bạn thành hình ảnh có độ chính xác cao dự kiến sẽ là một quá trình mượt mà hơn.
Một lời hứa hấp dẫn của DALL-E 3 là sự tích hợp của nó với ChatGPT. Điều này ngụ ý rằng người dùng sẽ không cần phải vật lộn với việc tạo ra các lời nhắc phức tạp; một mô tả ngắn gọn là đủ, với ChatGPT thay mặt bạn tạo ra các lời nhắc chi tiết một cách khéo léo.
OpenAI cũng đã nhấn mạnh tầm quan trọng của bối cảnh trong những lời nhắc dài dòng. DALL-E 3 được thiết kế để đảm bảo tính chi tiết, làm cho nó phù hợp hơn với bối cảnh được mô tả trong các lời nhắc mở rộng.
Tuy nhiên, giống như bất kỳ mô hình AI mới nào, luôn có một yếu tố chưa biết. Mặc dù những cái nhìn thoáng qua ban đầu có vẻ đầy hứa hẹn nhưng thử nghiệm giấy quỳ thực sự sẽ đi kèm với việc sử dụng lâu dài. Các câu hỏi vẫn còn tồn tại về hiệu quả và tốc độ hoạt động của nó.
Có khả năng DALL-E 3 sẽ là một quá trình khuếch tán gồm nhiều giai đoạn, với GPT-4 đóng vai trò là bộ mã hóa văn bản. Cơ chế phức tạp của thiết lập này có thể vẫn được giữ bí mật.
Dòng thời gian truy cập vào DALL-E 3 được ấn định vào tháng XNUMX, ban đầu là dành cho ChatGPT Thêm và ChatGPT Người dùng doanh nghiệps, với khả năng truy cập rộng hơn cho các nhà nghiên cứu sau đó.
Sản phẩm liên quan: OpenAI's Altman tại Thượng viện Hoa Kỳ để thảo luận về rủi ro của AI |
Sắc thái và Sự kiểm duyệt của DALL-E 3
Trọng tâm chính trong quá trình phát triển của DALL-E 3 là quá trình hạn chế khả năng của nó một cách tỉ mỉ. Điều này liên quan đến việc căn chỉnh và bộ lọc nghiêm ngặt được thiết kế để loại trừ các loại nội dung cụ thể. Ví dụ: người mẫu kiên quyết từ chối tạo hình ảnh của các nhân vật nổi tiếng, sao chép tác phẩm nghệ thuật theo phong cách của các nghệ sĩ nổi tiếng hoặc tạo bất kỳ nội dung nào được cho là không an toàn bởi OpenAInhững tiêu chuẩn khắt khe của Cách tiếp cận chiến lược này không chỉ là những hạn chế; đó là một biện pháp chủ động nhằm bảo vệ công ty khỏi những vướng mắc pháp lý tiềm ẩn.
Tuy nhiên, ngoài những bộ lọc và sự sắp xếp này, một số quan sát hấp dẫn được đưa ra ánh sáng. DALL-E 3 dường như bộc lộ một điểm yếu nhất định khi tạo ra nội dung chân thực. Thay vì tạo ra những hình ảnh bắt chước ảnh thật một cách hoàn hảo, đầu ra lại mang chất lượng cách điệu riêng biệt. Những bức ảnh do AI tạo ra này toát lên vẻ ngoài gần như được hiển thị và hơi dẻo. Ngay cả khi được nhắc rõ ràng bằng từ “bức ảnh”, kết quả vẫn cố định ở cách điệu đặc trưng của nó.
Điều đáng chú ý là bất chấp những đặc điểm riêng này, DALL-E 3 vẫn mang đến một cái nhìn thoáng qua về tiềm năng vượt trội. Trong số những sáng tạo của nó, một số trường hợp thể hiện sự giống nhau đến kinh ngạc với những bức ảnh. Cần lưu ý rằng độ chân thực mô phỏng của những hình ảnh này không nhất thiết phải giống với vẻ ngoài của một bức ảnh chân thực của cùng một chủ đề, đặc biệt nếu bị chìm dưới nước.
Sản phẩm liên quan: Microsoft ra mắt Designer, công cụ Chuyển văn bản thành hình ảnh chuyên nghiệp đầu tiên dựa trên DALL-E 2 |
Tính năng và chi tiết của DALL-E 3
Chúng ta hãy dành chút thời gian để sàng lọc từng pixel và đọc từng dòng để hiểu mẫu máy mới này thực sự mang lại những gì.
Nghệ thuật cách điệu: Nhìn qua OpenAItài khoản Instagram của, bạn sẽ nhận thấy vô số tác phẩm nghệ thuật được đặc trưng bởi sự cách điệu tinh tế. Mặc dù có một loạt các bố cục và thiết kế trừu tượng đầy ấn tượng, nhưng mô hình này dường như tránh xa việc tạo ra nội dung mang tính chân thực. Điểm nhấn ở đây là tính thẩm mỹ và tính sáng tạo chứ không phải bắt chước thực tế.
Hạn chế nghệ thuật: DALL-E 3 đi theo một con đường khác so với người tiền nhiệm của nó. Nó kiên quyết từ chối tạo ra hình ảnh theo phong cách của các nghệ sĩ sống, một sự khác biệt hoàn toàn so với DALL-E 2, vốn có thể bắt chước phong cách của một số nghệ sĩ. Điều này có thể khiến cộng đồng sáng tạo phải ngạc nhiên, tương tự như sự đón nhận nồng nhiệt của Stable Diffusion 2.0.
Trao quyền cho nghệ sĩ: Trong một động thái nhằm tôn trọng quyền của nghệ sĩ, OpenAI cho phép các nghệ sĩ loại trừ tác phẩm của họ khỏi các phiên bản DALL-E trong tương lai. Bằng cách gửi hình ảnh mà họ sở hữu quyền, các nghệ sĩ có thể yêu cầu loại trừ hình ảnh đó khỏi đầu ra của mô hình. Các lần lặp lại trong tương lai của DALL-E sẽ tránh tạo ra nội dung giống như phong cách nghệ sĩ.
Bảo mật và kiểm duyệt: OpenAISự hoang tưởng của chúng ta về an ninh là có thể cảm nhận được. Họ đã cộng tác với các “đội đỏ” bên ngoài để kiểm tra tính bảo mật của mô hình và sử dụng các bộ phân loại đầu vào để dạy mô hình bỏ qua các từ cụ thể có thể dẫn đến nội dung tục tĩu hoặc có hại. DALL-E 3 hạn chế tái tạo hình ảnh của nhân vật của công chúng khi tên của họ được nhắc đến một cách rõ ràng. Việc những người nổi tiếng có thuộc danh mục này hay không vẫn chưa chắc chắn, điều này có khả năng ảnh hưởng đến chất lượng của khuôn mặt được tạo ra.
Hình mờ và theo dõi: Có gợi ý về việc nhúng thẻ để theo dõi “hình ảnh do AI tạo ra”, cho thấy bước tiến tới việc giám sát tốt hơn và có khả năng gắn hình mờ vào nội dung được tạo.
Cải thiện văn bản và bàn tay: OpenAI chào hàng cải tiến việc tạo văn bản và hiển thị bằng tay, một tuyên bố chung của các đối thủ cạnh tranh. Thử nghiệm thực sự nằm ở kết quả đầu ra thực tế ngoài các ví dụ được chọn lọc kỹ lưỡng.
Hiểu biết không gian: DALL-E 3 vượt trội trong việc hiểu các mối quan hệ không gian được mô tả trong lời nhắc. Điều này nâng cao khả năng của mô hình trong việc xây dựng các góc và bố cục phức tạp, mặc dù người dùng đang chờ đợi bằng chứng cụ thể hơn về lời hứa này.
Sức mạnh của lời nhắc: Mấu chốt của DALL-E3 nằm ở khả năng nhanh chóng và sự tích hợp với ChatGPT. Nó hứa hẹn tự động hóa, tốc độ và đơn giản hóa thiết kế nhanh chóng. Xu hướng ở đây là hướng tới chatGPT tạo lời nhắc, chuyển những ý tưởng mơ hồ hoặc những lời nhắc thô sơ thành những ý tưởng hùng hồn. Khả năng hiểu ngữ cảnh được cải thiện của DALL-E 3 giúp hợp lý hóa quy trình, cho phép người dùng tập trung vào ý định hơn là tính dài dòng.
Lãnh thổ chưa được khám phá: Đáng chú ý là sự vắng mặt trong cuộc thảo luận là các khía cạnh như vẽ trong, vẽ ngoài, tô sáng tạo và tạo mô hình 3D. Việc thiếu các tính năng này có thể là một hạn chế, đặc biệt đối với những người dùng đã quen với các mẫu máy linh hoạt hơn.
Chi tiết truy cập: DALL-E 3 được thiết lập để có sẵn cho ChatGPT Khách hàng Plus và Enterprise vào đầu tháng XNUMX. Tuy nhiên, các chi tiết cụ thể liên quan đến việc phân bổ tín dụng cho ChatGPT Cộng với người dùng và các chi phí liên quan vẫn chưa rõ ràng. Quyền truy cập sẽ được cung cấp thông qua API và OpenAI Nền tảng Labs “vào cuối mùa thu”.
Năng lực hội nhập: DALL-E được thiết lập để tích hợp liền mạch vào các sản phẩm của đối tác và Microsoft. Mong đợi được chứng kiến sự ra đời của các bài thuyết trình, hình minh họa, thiết kế, logo, tất cả đều được đặt trong ngữ cảnh và được khuếch đại với sự hỗ trợ từ ChatGPT. Sự tích hợp này được thiết lập để trở thành xu hướng chủ đạo, đặt ra thách thức đáng kể cho các đối thủ cạnh tranh như Google với Bard của nó và chữ tượng hình.
Sự hội tụ của LLM và nội dung trực quan: Khía cạnh hấp dẫn nhất nằm ở sự hội tụ của Mô hình ngôn ngữ lớn (LLM) và mô hình tạo nội dung trực quan. Nó biểu thị sự chuyển đổi từ kỹ thuật nhanh chóng phức tạp sang thể hiện ý tưởng bằng ngôn ngữ dễ tiếp cận hơn. AI sẽ thu thập bối cảnh và ý tưởng từ những cách diễn đạt này, mang đến những khả năng sáng tạo khó có thể cưỡng lại được.
Sản phẩm liên quan: 50 lời nhắc chuyển văn bản thành hình ảnh hàng đầu dành cho trình tạo nghệ thuật AI Midjourney và DALL-E |
DALL-E 3: Trở thành người dẫn đầu mới trong thế hệ hình ảnh AI
OpenAIquyết định tích hợp DALL-E 3 vào ChatGPT hệ sinh thái là một bước đi chiến lược. Sự tích hợp này cấp cho DALL-E 3 quyền truy cập vào cơ sở dữ liệu người dùng rộng lớn gồm 100 triệu người dùng đang hoạt động. Bước này tăng cường đáng kể khả năng truy cập của DALL-E 3 và có khả năng thúc đẩy sự phổ biến của nó.
Hiện nay, Midjourney và Stable Diffusion khoe khoang xung quanh 15 triệu người dùng đã đăng ký. Tuy nhiên, với sự tích hợp này, DALL-E 3 được thiết lập để có quyền truy cập vào cơ sở người dùng lớn hơn gấp mười lần—100 triệu người dùng. Điều này làm cho ChatGPT Đăng ký Plus lập kế hoạch càng hấp dẫn hơn vì nó cung cấp quyền truy cập vào chatbot, công cụ phân tích và tạo hình ảnh, tất cả đều ở mức giá phải chăng.
Việc tích hợp không chỉ mang lại lợi ích cho người dùng hiện tại mà còn đóng vai trò là thỏi nam châm mạnh mẽ thu hút người dùng mới. Nó mở rộng OpenAI phạm vi tiếp cận và mức độ phổ biến của hệ sinh thái, thu hút những cá nhân tìm kiếm giải pháp nội dung do AI tạo ra.
Động thái chiến lược này đã sẵn sàng để thúc đẩy OpenAIdoanh thu của và các số liệu quan trọng khác. Các nhà đầu tư của công ty có thể sẽ nhìn nhận sự phát triển này một cách tích cực, đặc biệt là trong bối cảnh gần đây Lưu lượng giao thông giảm 20% trong suốt mùa hè.
Đọc thêm các chủ đề liên quan:
Từ chối trách nhiệm
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.
Xem thêm bài viếtDamir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.