Dall-E 3 vs. Midjourney: Một so sánh lớn về các công cụ tạo nghệ thuật AI tiên tiến nhất
Hãy tham gia cùng chúng tôi trong cuộc hành trình ly kỳ này khi chúng tôi khám phá Dall-E 3 và Midjourneysự tinh tế, phức tạp và tiềm năng chưa được khai thác của nó. Bài viết này nêu bật những so sánh hấp dẫn nhất dựa trên nghiên cứu được thực hiện bởi Atachkina, người đam mê AI; nếu bạn muốn tìm hiểu thêm, hãy nhấp vào Link.
Mẹo chuyên nghiệp |
---|
1. Khám phá 50 lời nhắc chuyển văn bản thành hình ảnh hàng đầu dành cho người tạo nghệ thuật AI Midjourney và DALL-E. |
2. Khơi dậy sự sáng tạo của bạn với 20 công cụ tạo nghệ thuật chuyển văn bản thành hình ảnh AI hàng đầu của 2023. |
Bài viết này cung cấp lời nhắc chuyển văn bản thành hình ảnh, một hình ảnh hiển thị kết quả từ Dall-E 3 và Midjourneyvà giải thích sự khác biệt giữa hai máy phát điện nghệ thuật. Hãy bắt đầu nào.
Cả hai mạng lưới thần kinh đều hoạt động rất đáng ngưỡng mộ trong trường hợp này, với Midjourney vượt trội hơn một chút so với những người khác.
Dall-E 3 đã làm việc tệ hơn nhiều ở đây; nó có màu sắc tươi sáng của kiểu dáng, nhưng không có sự rõ ràng của các chi tiết; những cơ thể biến dạng xuất hiện ở phía sau, và những khuôn mặt không thành công chút nào.
Hóa ra cả hai nơi đều thú vị nhưng Dall-E 3 lại một lần nữa phải vật lộn với những khuôn mặt. Thay vào đó, nó làm một chiếc túi màu be sang trọng theo hướng dẫn trong lời nhắc, và Midjourney coi thường nó. Trong trường hợp này, Dall-E 3 đã rất ngoan ngoãn thực hiện lời nhắc.
Và một lần nữa, trong khi cả hai lưới đều tạo ra những bức ảnh ghép xuất sắc, Dall-E 3 lại trung thành hơn với lời nhắc; nó chỉ thêm những anh hùng mà chúng tôi đã chỉ định, nó không thể biến thành một kẻ pha trò và nó đã vượt qua thuyền trưởng với Batman.
Midjourney đã có thể kết hợp phong cách tương ứng của hai nghệ sĩ từ lời nhắc, trong khi Dall-E 3 chỉ thêm nhiều chi tiết phức tạp và màu sắc tươi sáng vào nền.
Một lần nữa, những con mèo ở trạng thái tốt nhất và cả hai mạng lưới thần kinh đều hiểu được máy ảnh phim một cách hoàn hảo. Tuy nhiên, Dall-E 3 thậm chí còn thêm hạt vào hình ảnh.
Dall-E 3 đã tạo ra một Leonardo DiCaprio trẻ trung với họa tiết áo liền quần thú vị, thêm hạt phim và cách phối màu, đồng thời phản ánh rất ngầu cảm giác về một ngôi nhà nông thôn ở Nga. Midjourney là người phản chiếu màu sắc tốt cho bộ phim và DiCaprio đã mang đến cho cô vẻ ngoài trưởng thành hơn.
Mặc dù cả hai mạng thần kinh rất giỏi trong việc tạo ảnh ghép, nếu bạn nhìn kỹ, Midjourney làm biến dạng khuôn mặt và một số hình dạng vật thể, trong khi Dall-E 3 chính xác hơn trong việc thực hiện các nhân vật - thậm chí nó còn hóa ra là Chewbacca.
Khi phóng to các bức ảnh, bạn sẽ nhận thấy Dall-E 3 có đôi mắt mờ; Midjourney, mặt khác, là hoàn hảo. Dall-E 3 cũng quy định nhãn hiệu; những con rắn trên đầu dường như sống động và chuyển động hơn; Midjourney luôn bắt họ nằm xuống chứ không phải trên đầu.
Cả hai đều tuyệt vời, nhưng Midjourney coi phong cách của nghệ sĩ cũng như hiệu ứng của máy quay phim, trong khi Dall-E 3 bỏ qua cảnh quay toàn cảnh và không tính đến nó.
Chúng tôi cũng quyết định chụp thử ảnh với các nàng tiên nhưng Dall-E 3 nhất quyết không chịu hợp tác. Midjourney đã không bỏ qua đôi cánh vì tham chiếu có đôi cánh đã được thêm vào. Khi Dall-E 3 chụp một bức ảnh, nó đưa ra một số khả năng hấp dẫn, nhưng với một phụ nữ Mỹ.
Midjourney đã làm rất tốt, nhưng chúng tôi muốn thu hút sự chú ý đặc biệt đến cách Dall-E 3 tạo ra hiệu ứng phim ở hình trên cùng bên phải và thêm chữ viết tay màu trắng của riêng mình; nó trở nên tuyệt vời.
Dall-E 3 đã có thể ngoan ngoãn nhận ra tất cả các anh hùng của lời nhắc trong một hình ảnh một lần nữa. Midjourney đã cố gắng rất nhiều và thậm chí đã gần thành công.
Thoạt nhìn, có vẻ như cả hai đều tốt, nhưng khi kiểm tra kỹ hơn sẽ thấy rằng Dall-E 3 thiếu âm lượng quang học và điều đó Midjourney xử lý các khớp bằng nĩa với một tiếng nổ.
Cả hai trình tạo đều thành thạo trong các lĩnh vực tương ứng của chúng, trong đó Dall-E 3 xuất sắc về văn bản và Midjourney xuất sắc trong chủ nghĩa ảnh thực.
Tính chất vật lý và hình học của máy sấy tóc rất khó đối với Midjourney. Bạn có thể mất nhiều thời gian vật lộn với các lần thử và tài liệu tham khảo, và đôi khi kết quả giống như một chiếc máy sấy tóc, nhưng Dall-E 3 đã tạo ra kết quả chấp nhận được trong lần thử đầu tiên và thậm chí còn viết được văn bản.
Con mắt duy nhất thì tốt, nhưng đó lại là một câu chuyện khác. TRONG Midjourney, chúng tôi đã viết một lời nhắc tiêu cực – không có phim hoạt hình, hình minh họa, phẳng, hai mắt. Dall-E 3 lập tức vâng lời, làm một mắt, mỉm cười, bỏ mũ ra nhưng thẳng thừng không cho ai chụp ảnh.
Midjourney khiến thế hệ này không thích Brad nên chúng tôi sử dụng dịch vụ bổ sung Insight Hoán đổi khuôn mặt để đưa khuôn mặt của Brad vào thế hệ; đã có một bài viết về nó ở đây Dall-E 3 biết Brad Pitt là ai và có thể vẽ các ngôi sao mà không cần bất kỳ phần mềm bổ sung nào.
Cả hai mắt lưới đều tốt, nhưng Dall-E 3 có thể tạo ra sừng kỳ lân trong khi Midjourney thường không thể.
Dall-E 3 đã làm rất tốt việc đưa các nhân vật vào hành động; chúng ta có thể thấy một con orc và một con elf với đôi tai của elf. Ngoài ra còn có một người mặc bộ đồ thể thao Nike nhưng mắt họ bị lem. Đôi tai nhọn của yêu tinh hầu hết bị bỏ qua Midjourney, và Nike cũng bị coi thường.
Khi phần tái bút “minh họa” ban đầu bị loại khỏi dấu nhắc, Dall-E 3 đã tạo ra một phần tái bút. Sau đó chúng tôi quyết định so sánh nó với Midjourneyminh họa của. Trong khi Midjourney gần giống với các hình minh họa thời Liên Xô hơn và không bao gồm đôi cánh thần tiên, Dall-E 3 đã thực hiện rất tốt việc vẽ búa liềm. Ví dụ bên phải cho thấy Dall-E 3 có thể xuất hiện như thế nào trong văn bản.
Tuy vậy, Midjourney đi vào chủ nghĩa quang học; không có nhân vật chính trong ảnh, chỉ có khung cảnh xung quanh nhưng vẫn rất ngầu. Dall-E 3 không muốn xuất hiện trong bức ảnh nữa.
Dall-E 3 vs. Midjourney: Ưu và nhược điểm
Khi người dùng khám phá công nghệ này, một số điểm mạnh và hạn chế đáng chú ý đã được phát hiện, giúp hiểu rõ hơn về chức năng của nó.
Ưu điểm:
- Sự vâng lời nhanh chóng: Một trong những tính năng nổi bật của Dall-E 3 là khả năng làm theo lời nhắc một cách chính xác. Người dùng đã báo cáo rằng mô hình AI phản ứng hiệu quả với nhiều loại đầu vào, khiến nó trở thành một công cụ linh hoạt cho nhiều tác vụ khác nhau.
- Sáng tạo đa dạng: Dall-E 3 thể hiện khả năng khắc họa nhiều nhân vật trong một hình ảnh duy nhất, mở rộng tiềm năng cho các dự án kể chuyện và sáng tạo. Cách tiếp cận nhiều mặt này nâng cao tiện ích của nó trên các lĩnh vực khác nhau.
- Tích hợp văn bản: Người dùng đã ghi nhận sự thành thạo của Dall-E 3 trong việc tích hợp văn bản liền mạch vào hình ảnh. Tính năng này tạo điều kiện thuận lợi cho việc tạo nội dung hấp dẫn trực quan với các yếu tố văn bản được nhúng.
Nhược điểm:
- Hình ảnh rõ ràng: Một hạn chế đáng chú ý là AI có xu hướng tạo ra những hình ảnh có khuôn mặt và mắt bị mờ. Mặc dù nó vượt trội về khả năng sáng tạo nhưng đôi khi nó thiếu sự rõ ràng và chính xác như nội dung do con người tạo ra.
- Tính nhất quán về phong cách: Dall-E 3 không nhất quán sao chép phong cách của các nghệ sĩ cụ thể, đây có thể là một hạn chế đối với những người tìm kiếm sự mô phỏng nghệ thuật chính xác.
- Yêu cầu VPN: Việc truy cập vào Dall-E 3 hiện cần sử dụng VPN, điều này có thể đặt ra thách thức về khả năng truy cập đối với một số người dùng.
- Quản lý hình ảnh: Người dùng gặp phải những hạn chế khi quản lý hình ảnh được tạo trên trang web Microsoft Bing. Đáng chú ý là không có chức năng định hướng định dạng và lịch sử hình ảnh bị giới hạn ở những lần tải lên gần đây, cần phải sao chép ngay để sử dụng sau.
- Tốc độ thế hệ: Trong một số trường hợp, quá trình tạo trong Dall-E 3 được báo cáo là chậm hơn so với các mẫu AI khác.
Bất chấp những hạn chế này, Dall-E 3 vẫn có nhiều hứa hẹn. Người dùng cũng như các chuyên gia đều nhận ra tiềm năng của nó trong việc cách mạng hóa việc tạo nội dung và kể chuyện. BẰNG OpenAI tiếp tục cải tiến và mở rộng các sản phẩm của mình, người ta kỳ vọng rằng các thế mạnh của Dall-E 3 sẽ còn tỏa sáng hơn nữa, khiến nó trở thành một công cụ có giá trị trong nhiều lĩnh vực khác nhau.
Câu Hỏi Thường Gặp
Cả Dall-E 3 và Midjourney có điểm mạnh và điểm yếu của họ. Dall-E 3 đặc biệt tuân theo lời nhắc và có thể tích hợp văn bản một cách liền mạch vào hình ảnh. Tuy nhiên, đôi khi nó tạo ra những hình ảnh có khuôn mặt và mắt bị mờ và có thể không tái hiện nhất quán phong cách của các nghệ sĩ cụ thể. Mặt khác, Midjourney vượt trội về chủ nghĩa quang học nhưng không phải lúc nào cũng nắm bắt được bản chất của một số gợi ý nhất định một cách chính xác như Dall-E 3.
Bài viết cung cấp lời nhắc chuyển văn bản thành hình ảnh, trình bày kết quả từ cả Dall-E 3 và Midjourneyvà giải thích sự khác biệt giữa hai công cụ tạo tác phẩm nghệ thuật.
Cả hai mô hình AI đều có điểm mạnh và điểm yếu. Ví dụ: trong lời nhắc về một phi hành gia trên Sao Mộc, Midjourney nhỉnh hơn một chút so với Dall-E 3. Tuy nhiên, trong một câu chuyện khác về Wonder Woman, Dall-E 3 đã nắm bắt được bản chất của câu chuyện chính xác hơn.
- Sự vâng lời nhanh chóng: Dall-E 3 làm theo chính xác lời nhắc.
- Sáng tạo đa dạng: Nó có thể mô tả nhiều ký tự trong một hình ảnh.
- Tích hợp văn bản: Dall-E 3 có thể tích hợp liền mạch văn bản vào hình ảnh.
- Hình ảnh rõ nét: Đôi khi nó tạo ra hình ảnh với khuôn mặt và mắt bị mờ.
- Phong cách nhất quán: Dall-E 3 không nhất quán sao chép phong cách của các nghệ sĩ cụ thể.
- Quản lý hình ảnh: Có những hạn chế khi quản lý hình ảnh được tạo trên trang web Microsoft Bing.
- Tốc độ thế hệ: Quá trình tạo ra Dall-E 3 có thể chậm hơn so với các mẫu AI khác.
Từ chối trách nhiệm
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.
Xem thêm bài viếtDamir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.