Báo cáo tin tức Công nghệ
Tháng Chín 21, 2023

Bộ khuếch đại phát hành DALL-E 3 OpenAIẢnh hưởng của, Rời đi Midjourney và Stable Diffusion Phía sau

Tóm lại

DALL-E 3 được thiết lập để tích hợp liền mạch với GPT-4, được thiết kế riêng cho ChatGPT+ người đăng ký.

DALL-E 3 hạn chế tái tạo hình ảnh của các nhân vật của công chúng khi tên của họ được nhắc đến một cách rõ ràng.

Dòng thời gian truy cập vào DALL-E 3 được ấn định vào tháng XNUMX.

OpenAI đã tiết lộ sáng tạo mới nhất của mình: DALL-E3. Không giống như các phiên bản trước, DALL-E 3 tập trung vào việc tinh chỉnh các chi tiết vụn vặt, giải quyết các vấn đề như chữ và các chi tiết cơ thể phức tạp, chẳng hạn như ngón tay. Kết quả? Một loạt các hình ảnh mang tính thẩm mỹ mà không cần lời nhắc hoặc cách giải quyết phức tạp.

Bộ khuếch đại phát hành DALL-E 3 OpenAIẢnh hưởng của, Rời đi Midjourney và Stable Diffusion Phía sau

Điều quan trọng cần lưu ý là bản phát hành này không đi kèm với bộ chi tiết, bài viết hoặc API triển khai toàn diện. Thay vào đó, DALL-E 3 được thiết lập để tích hợp liền mạch với GPT-4, được thiết kế riêng cho ChatGPT+ người đăng ký.

Sự phát triển này có thể không phải là một sự thay đổi địa chấn trong bối cảnh AI mà là một bước tiến trong sự hợp tác giữa các mô hình. Nhiều người dự đoán rằng tiếp theo Stable Diffusion kiểu mẫu sẽ mang đến sự tinh tế và hấp dẫn nghệ thuật hơn nữa.

Để đặt nó trong ngữ cảnh, OpenAIhành trình tạo hình ảnh bằng AI của chúng tôi đã trải qua một chặng đường khá dài:

  • 2021: DALL-E 1, mô hình 12 tỷ tham số, được giới thiệu với thông tin hạn chế.
  • 2021: GLIDE, một mô hình tham số 2 tỷ, đã được ra mắt cùng với các mô hình tham số 300 triệu nguồn mở.
  • 2022: DALL-E 2 đã xuất hiện, có 2 tỷ thông số, kèm theo giấy và API unCLIP.
  • 2023: DALL-E 3 đã xuất hiện và mặc dù các chi tiết có thể hơi khó hiểu nhưng có một điều rõ ràng là nó sẽ tích hợp với GPT-4 cho ChatGPT+ người đăng ký.

Tính đến thời điểm hiện tại, hình ảnh của DALL-E 3 vẫn còn khá khan hiếm. Không có cơ sở mã, bài đăng trên blog hoặc so sánh chi tiết với phiên bản hiện đại nhất (SOTA). OpenAI dường như đang giữ những lá bài gần ngực của họ.

Bộ khuếch đại phát hành DALL-E 3 OpenAIẢnh hưởng của, Rời đi Midjourney và Stable Diffusion Phía sau

Mẫu này được quảng cáo là có khả năng hiểu biết sâu sắc hơn về các sắc thái và chi tiết so với các phiên bản tiền nhiệm. Điều này có nghĩa là việc chuyển các khái niệm sáng tạo của bạn thành hình ảnh có độ chính xác cao dự kiến ​​sẽ là một quá trình mượt mà hơn.

Một lời hứa hấp dẫn của DALL-E 3 là sự tích hợp của nó với ChatGPT. Điều này ngụ ý rằng người dùng sẽ không cần phải vật lộn với việc tạo ra các lời nhắc phức tạp; một mô tả ngắn gọn là đủ, với ChatGPT thay mặt bạn tạo ra các lời nhắc chi tiết một cách khéo léo.

OpenAI cũng đã nhấn mạnh tầm quan trọng của bối cảnh trong những lời nhắc dài dòng. DALL-E 3 được thiết kế để đảm bảo tính chi tiết, làm cho nó phù hợp hơn với bối cảnh được mô tả trong các lời nhắc mở rộng.

Tuy nhiên, giống như bất kỳ mô hình AI mới nào, luôn có một yếu tố chưa biết. Mặc dù những cái nhìn thoáng qua ban đầu có vẻ đầy hứa hẹn nhưng thử nghiệm giấy quỳ thực sự sẽ đi kèm với việc sử dụng lâu dài. Các câu hỏi vẫn còn tồn tại về hiệu quả và tốc độ hoạt động của nó.

Có khả năng DALL-E 3 sẽ là một quá trình khuếch tán gồm nhiều giai đoạn, với GPT-4 đóng vai trò là bộ mã hóa văn bản. Cơ chế phức tạp của thiết lập này có thể vẫn được giữ bí mật.

Dòng thời gian truy cập vào DALL-E 3 được ấn định vào tháng XNUMX, ban đầu là dành cho ChatGPT Thêm và ChatGPT Người dùng doanh nghiệps, với khả năng truy cập rộng hơn cho các nhà nghiên cứu sau đó.

Sản phẩm liên quan: OpenAI's Altman tại Thượng viện Hoa Kỳ để thảo luận về rủi ro của AI

Sắc thái Sự kiểm duyệt của DALL-E 3

Trọng tâm chính trong quá trình phát triển của DALL-E 3 là quá trình hạn chế khả năng của nó một cách tỉ mỉ. Điều này liên quan đến việc căn chỉnh và bộ lọc nghiêm ngặt được thiết kế để loại trừ các loại nội dung cụ thể. Ví dụ: người mẫu kiên quyết từ chối tạo hình ảnh của các nhân vật nổi tiếng, sao chép tác phẩm nghệ thuật theo phong cách của các nghệ sĩ nổi tiếng hoặc tạo bất kỳ nội dung nào được cho là không an toàn bởi OpenAInhững tiêu chuẩn khắt khe của Cách tiếp cận chiến lược này không chỉ là những hạn chế; đó là một biện pháp chủ động nhằm bảo vệ công ty khỏi những vướng mắc pháp lý tiềm ẩn.

Tuy nhiên, ngoài những bộ lọc và sự sắp xếp này, một số quan sát hấp dẫn được đưa ra ánh sáng. DALL-E 3 dường như bộc lộ một điểm yếu nhất định khi tạo ra nội dung chân thực. Thay vì tạo ra những hình ảnh bắt chước ảnh thật một cách hoàn hảo, đầu ra lại mang chất lượng cách điệu riêng biệt. Những bức ảnh do AI tạo ra này toát lên vẻ ngoài gần như được hiển thị và hơi dẻo. Ngay cả khi được nhắc rõ ràng bằng từ “bức ảnh”, kết quả vẫn cố định ở cách điệu đặc trưng của nó.

Lời nhắc số 1
Lời nhắc số 1: Ảnh cận cảnh một con ốc mượn hồn nép mình trong cát ướt, với bọt biển gần đó và các chi tiết về vỏ cũng như kết cấu của cát được nhấn mạnh.
Lời nhắc số 2
Lời nhắc số 2: Một chiếc ghế dài hình quả chuối màu vàng rực rỡ nằm trong phòng khách ấm cúng, đường cong của nó ôm lấy một đống đệm đầy màu sắc. trên sàn gỗ, một tấm thảm có hoa văn tạo thêm nét quyến rũ chiết trung và một chậu cây nằm trong góc, vươn về phía ánh nắng xuyên qua cửa sổ.
Lời nhắc số 3
Lời nhắc số 3: Bức ảnh về một con tàu đắm cổ nằm dưới đáy đại dương. Thực vật biển đã chiếm giữ cấu trúc bằng gỗ và cá bơi vào và ra khỏi các khoảng trống của nó. Kho báu bị chìm và những khẩu đại bác cũ nằm rải rác xung quanh, mang đến cái nhìn thoáng qua về quá khứ.

Điều đáng chú ý là bất chấp những đặc điểm riêng này, DALL-E 3 vẫn mang đến một cái nhìn thoáng qua về tiềm năng vượt trội. Trong số những sáng tạo của nó, một số trường hợp thể hiện sự giống nhau đến kinh ngạc với những bức ảnh. Cần lưu ý rằng độ chân thực mô phỏng của những hình ảnh này không nhất thiết phải giống với vẻ ngoài của một bức ảnh chân thực của cùng một chủ đề, đặc biệt nếu bị chìm dưới nước.

Sản phẩm liên quan: Microsoft ra mắt Designer, công cụ Chuyển văn bản thành hình ảnh chuyên nghiệp đầu tiên dựa trên DALL-E 2

Tính năng và chi tiết của DALL-E 3

Chúng ta hãy dành chút thời gian để sàng lọc từng pixel và đọc từng dòng để hiểu mẫu máy mới này thực sự mang lại những gì.

Nghệ thuật cách điệu: Nhìn qua OpenAItài khoản Instagram của, bạn sẽ nhận thấy vô số tác phẩm nghệ thuật được đặc trưng bởi sự cách điệu tinh tế. Mặc dù có một loạt các bố cục và thiết kế trừu tượng đầy ấn tượng, nhưng mô hình này dường như tránh xa việc tạo ra nội dung mang tính chân thực. Điểm nhấn ở đây là tính thẩm mỹ và tính sáng tạo chứ không phải bắt chước thực tế.

Hạn chế nghệ thuật: DALL-E 3 đi theo một con đường khác so với người tiền nhiệm của nó. Nó kiên quyết từ chối tạo ra hình ảnh theo phong cách của các nghệ sĩ sống, một sự khác biệt hoàn toàn so với DALL-E 2, vốn có thể bắt chước phong cách của một số nghệ sĩ. Điều này có thể khiến cộng đồng sáng tạo phải ngạc nhiên, tương tự như sự đón nhận nồng nhiệt của Stable Diffusion 2.0.

Trao quyền cho nghệ sĩ: Trong một động thái nhằm tôn trọng quyền của nghệ sĩ, OpenAI cho phép các nghệ sĩ loại trừ tác phẩm của họ khỏi các phiên bản DALL-E trong tương lai. Bằng cách gửi hình ảnh mà họ sở hữu quyền, các nghệ sĩ có thể yêu cầu loại trừ hình ảnh đó khỏi đầu ra của mô hình. Các lần lặp lại trong tương lai của DALL-E sẽ tránh tạo ra nội dung giống như phong cách nghệ sĩ.

Bảo mật và kiểm duyệt: OpenAISự hoang tưởng của chúng ta về an ninh là có thể cảm nhận được. Họ đã cộng tác với các “đội đỏ” bên ngoài để kiểm tra tính bảo mật của mô hình và sử dụng các bộ phân loại đầu vào để dạy mô hình bỏ qua các từ cụ thể có thể dẫn đến nội dung tục tĩu hoặc có hại. DALL-E 3 hạn chế tái tạo hình ảnh của nhân vật của công chúng khi tên của họ được nhắc đến một cách rõ ràng. Việc những người nổi tiếng có thuộc danh mục này hay không vẫn chưa chắc chắn, điều này có khả năng ảnh hưởng đến chất lượng của khuôn mặt được tạo ra.

Hình mờ và theo dõi: Có gợi ý về việc nhúng thẻ để theo dõi “hình ảnh do AI tạo ra”, cho thấy bước tiến tới việc giám sát tốt hơn và có khả năng gắn hình mờ vào nội dung được tạo.

Cải thiện văn bản và bàn tay: OpenAI chào hàng cải tiến việc tạo văn bản và hiển thị bằng tay, một tuyên bố chung của các đối thủ cạnh tranh. Thử nghiệm thực sự nằm ở kết quả đầu ra thực tế ngoài các ví dụ được chọn lọc kỹ lưỡng.

Hiểu biết không gian: DALL-E 3 vượt trội trong việc hiểu các mối quan hệ không gian được mô tả trong lời nhắc. Điều này nâng cao khả năng của mô hình trong việc xây dựng các góc và bố cục phức tạp, mặc dù người dùng đang chờ đợi bằng chứng cụ thể hơn về lời hứa này.

Sức mạnh của lời nhắc: Mấu chốt của DALL-E3 nằm ở khả năng nhanh chóng và sự tích hợp với ChatGPT. Nó hứa hẹn tự động hóa, tốc độ và đơn giản hóa thiết kế nhanh chóng. Xu hướng ở đây là hướng tới chatGPT tạo lời nhắc, chuyển những ý tưởng mơ hồ hoặc những lời nhắc thô sơ thành những ý tưởng hùng hồn. Khả năng hiểu ngữ cảnh được cải thiện của DALL-E 3 giúp hợp lý hóa quy trình, cho phép người dùng tập trung vào ý định hơn là tính dài dòng.

Lãnh thổ chưa được khám phá: Đáng chú ý là sự vắng mặt trong cuộc thảo luận là các khía cạnh như vẽ trong, vẽ ngoài, tô sáng tạo và tạo mô hình 3D. Việc thiếu các tính năng này có thể là một hạn chế, đặc biệt đối với những người dùng đã quen với các mẫu máy linh hoạt hơn.

Chi tiết truy cập: DALL-E 3 được thiết lập để có sẵn cho ChatGPT Khách hàng Plus và Enterprise vào đầu tháng XNUMX. Tuy nhiên, các chi tiết cụ thể liên quan đến việc phân bổ tín dụng cho ChatGPT Cộng với người dùng và các chi phí liên quan vẫn chưa rõ ràng. Quyền truy cập sẽ được cung cấp thông qua API và OpenAI Nền tảng Labs “vào cuối mùa thu”.

Năng lực hội nhập: DALL-E được thiết lập để tích hợp liền mạch vào các sản phẩm của đối tác và Microsoft. Mong đợi được chứng kiến ​​sự ra đời của các bài thuyết trình, hình minh họa, thiết kế, logo, tất cả đều được đặt trong ngữ cảnh và được khuếch đại với sự hỗ trợ từ ChatGPT. Sự tích hợp này được thiết lập để trở thành xu hướng chủ đạo, đặt ra thách thức đáng kể cho các đối thủ cạnh tranh như Google với Bard của nó và chữ tượng hình.

Sự hội tụ của LLM và nội dung trực quan: Khía cạnh hấp dẫn nhất nằm ở sự hội tụ của Mô hình ngôn ngữ lớn (LLM) và mô hình tạo nội dung trực quan. Nó biểu thị sự chuyển đổi từ kỹ thuật nhanh chóng phức tạp sang thể hiện ý tưởng bằng ngôn ngữ dễ tiếp cận hơn. AI sẽ thu thập bối cảnh và ý tưởng từ những cách diễn đạt này, mang đến những khả năng sáng tạo khó có thể cưỡng lại được.

Sản phẩm liên quan: 50 lời nhắc chuyển văn bản thành hình ảnh hàng đầu dành cho trình tạo nghệ thuật AI Midjourney và DALL-E

DALL-E 3: Trở thành người dẫn đầu mới trong thế hệ hình ảnh AI

OpenAIquyết định tích hợp DALL-E 3 vào ChatGPT hệ sinh thái là một bước đi chiến lược. Sự tích hợp này cấp cho DALL-E 3 quyền truy cập vào cơ sở dữ liệu người dùng rộng lớn gồm 100 triệu người dùng đang hoạt động. Bước này tăng cường đáng kể khả năng truy cập của DALL-E 3 và có khả năng thúc đẩy sự phổ biến của nó.

Hiện nay, Midjourney và Stable Diffusion khoe khoang xung quanh 15 triệu người dùng đã đăng ký. Tuy nhiên, với sự tích hợp này, DALL-E 3 được thiết lập để có quyền truy cập vào cơ sở người dùng lớn hơn gấp mười lần—100 triệu người dùng. Điều này làm cho ChatGPT Đăng ký Plus lập kế hoạch càng hấp dẫn hơn vì nó cung cấp quyền truy cập vào chatbot, công cụ phân tích và tạo hình ảnh, tất cả đều ở mức giá phải chăng.

Việc tích hợp không chỉ mang lại lợi ích cho người dùng hiện tại mà còn đóng vai trò là thỏi nam châm mạnh mẽ thu hút người dùng mới. Nó mở rộng OpenAI phạm vi tiếp cận và mức độ phổ biến của hệ sinh thái, thu hút những cá nhân tìm kiếm giải pháp nội dung do AI tạo ra.

Động thái chiến lược này đã sẵn sàng để thúc đẩy OpenAIdoanh thu của và các số liệu quan trọng khác. Các nhà đầu tư của công ty có thể sẽ nhìn nhận sự phát triển này một cách tích cực, đặc biệt là trong bối cảnh gần đây Lưu lượng giao thông giảm 20% trong suốt mùa hè.

Bộ khuếch đại phát hành DALL-E 3 OpenAIẢnh hưởng của, Rời đi Midjourney và Stable Diffusion Phía sau
ChatGPT Lưu lượng truy cập web giảm 20% trong tháng XNUMX và tiếp tục giảm mạnh

Đọc thêm các chủ đề liên quan:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories
Tham gia bản tin của chúng tôi.
Tin mới nhất

Từ Ripple đến DAO xanh lớn: Các dự án tiền điện tử đóng góp cho hoạt động từ thiện như thế nào

Hãy cùng khám phá các sáng kiến ​​khai thác tiềm năng của tiền tệ kỹ thuật số cho mục đích từ thiện.

Biết thêm

AlphaFold 3, Med-Gemini và những người khác: Cách AI biến đổi hoạt động chăm sóc sức khỏe vào năm 2024

AI biểu hiện theo nhiều cách khác nhau trong chăm sóc sức khỏe, từ việc khám phá các mối tương quan di truyền mới đến hỗ trợ các hệ thống phẫu thuật bằng robot...

Biết thêm
Tìm hiểu thêm về PNV
Tìm hiểu thêm
QCP Capital: Nền kinh tế Hoa Kỳ cho thấy dấu hiệu quá nóng, thị trường tiền điện tử phải đối mặt với ba bài kiểm tra dữ liệu kinh tế trong tuần này
Thị Trường Báo cáo tin tức Công nghệ
QCP Capital: Nền kinh tế Hoa Kỳ cho thấy dấu hiệu quá nóng, thị trường tiền điện tử phải đối mặt với ba bài kiểm tra dữ liệu kinh tế trong tuần này
13 Tháng một, 2025
Các nhà phân tích giải thích lý do tại sao giá Bitcoin giảm vào tháng 1 có thể báo hiệu mức tăng lớn hơn ở phía trước
Ý kiến Kinh doanh Thị Trường
Các nhà phân tích giải thích lý do tại sao giá Bitcoin giảm vào tháng 1 có thể báo hiệu mức tăng lớn hơn ở phía trước
13 Tháng một, 2025
CESS công bố các giải pháp dữ liệu phi tập trung tại cuộc họp GBA để thúc đẩy phát triển chăm sóc sức khỏe và thành phố thông minh
Báo cáo tin tức Công nghệ
CESS công bố các giải pháp dữ liệu phi tập trung tại cuộc họp GBA để thúc đẩy phát triển chăm sóc sức khỏe và thành phố thông minh
13 Tháng một, 2025
Fractal hỗ trợ giao thức Goldinals của Nubit, thúc đẩy quá trình chuẩn hóa Bitcoin
Báo cáo tin tức Công nghệ
Fractal hỗ trợ giao thức Goldinals của Nubit, thúc đẩy quá trình chuẩn hóa Bitcoin
13 Tháng một, 2025
CRYPTOMERIA LABS PTE. CÔNG TY TNHH