AI Wiki Sztuka Technologia
02 października 2023 r.

Dall-E 3 vs. Midjourney: Duże porównanie najbardziej zaawansowanych generatorów sztuki AI

Dołącz do nas w tej ekscytującej podróży, podczas której będziemy odkrywać Dall-E 3 i Midjourneysubtelności, złożoności i niewykorzystanego potencjału. W tym artykule omówiono najbardziej intrygujące porównania oparte na badaniach przeprowadzonych przez entuzjastę sztucznej inteligencji Atachkinę; jeśli chcesz dowiedzieć się więcej, kliknij link.

Dall-E 3 vs. Midjourney: Duże porównanie najbardziej zaawansowanych generatorów sztuki AI
Pro Tips
1. Odkryj 50 najważniejszych podpowiedzi dotyczących zamiany tekstu na obraz dla generatorów sztuki AI Midjourney i DALL-E.
2. Rozpal swoją kreatywność dzięki 20 najlepszych generatorów grafiki AI przekształcających tekst na obraz z 2023.

W tym artykule zamieszczono zachętę do zamiany tekstu na obraz, czyli obraz przedstawiający wyniki testu Dall-E 3 i Midjourneyoraz wyjaśnienie różnic między nimi generatory sztuki. Zaczynajmy.

podpowiedź: Kosmita stoi na Jowiszu i obserwuje wschód słońca. futurystyczny interfejs, perspektywa pierwszoosobowa, kosmiczny dowódca, deszczomierz i interfejs HUD Rise

Obie sieci neuronowe spisały się w tym przypadku znakomicie, m.in Midjourney nieznacznie przewyższający pozostałe.

podpowiedź: zdjęcia wykonane przez Slima Aaronsa z Wonder Woman w pomieszczeniu, złożone warstwy i tekstury, szczegółowy projekt postaci, tło z jasnymi, fantazyjnymi i kolorowymi scenami, pastelowa korekcja kolorów jak w filmach Wesa Andersona, ziarno filmu i Tokina AT-X 11-16mm f /2.8pro dx ii

Dall-E 3 spisał się tutaj znacznie gorzej; uzyskał jasne kolory stylów, ale nie klarowność szczegółów; w tle pojawiały się zdeformowane ciała, a twarze wcale nie były udane.

podpowiedź: zdjęcie uroczego, pulchnego cyberłóżka w jego internetowej rezydencji
podpowiedź: profesjonalna fotografia studyjna do celów komercyjnych dla Nike; modelka z długimi włosami; ujęcie całego ciała; ubrany w beżową koszulkę Nike; niezwykła kurtka dżinsowa Nike; miękka beżowa pluszowa torba Nike; miękkie fioletowe tenisówki Nike; stojący na jasnoróżowo-niebieskim tle; futurystyczne tło o złożonym, opływowym kształcie z podświetleniem; nakręcony na Hasselblad X1D;

W obu miejscach okazało się ciekawie, jednak Dall-E 3 po raz kolejny zmagał się z twarzami. Zamiast tego zrobił pluszową beżową torbę zgodnie z instrukcją, i Midjourney zlekceważył to. W tym przypadku Dall-E 3 wykazał się bardzo posłusznym wykonaniem polecenia.

podpowiedzi: figurka bąbelkowa wykorzystująca śledzenie promieni w pastelowych kolorach, rzeźba kobieca z metalicznym wykończeniem, błyszcząca/błyszcząca, wibrująca turbulencja, gołębi rdzeń, niekonwencjonalne pozy, sztuka anamorficzna, opalizacja/opalescencja, pętle sprzężenia zwrotnego wideo, błyszczące oczy, odważne krzywizny, błyszczący, płynny figuratyzm
podpowiedź: kolaż w stylu retro przedstawiający superbohaterów, w tym Wonder Woman, Kapitana Amerykę, Batmana i Jokera

I po raz kolejny, podczas gdy obie siatki tworzą doskonałe kolaże, Dall-E 3 jest bardziej wierny wskazówkom; dodał tylko określonych przez nas bohaterów, nie mógł zamienić się w jokera i skojarzył kapitana z Batmanem.

podpowiedź: metaliczna plamka ray tracingu, sztuka anamorficzna, przyciągające wzrok detale, precyzyjne linie, odważne krzywizny, błyszczący, płynny figuratyzm, pastelowe kolory, ciemne tło
podpowiedź: proste warstwy i tekstury, skomplikowany projekt postaci, żywe, fantazyjne i kolorowe tła, pastelowa korekcja kolorów na wzór filmów Wesa Andersona, ziarno kliszy i obiektyw Tokina at-x 11-16mm f/2.8 pro dx ii są obecne na tym zdjęciu Spider-Mana odpoczywającego na sofie zrobionego przez Slima Aaronsa.

Midjourney był w stanie połączyć style obu artystów z podpowiedzi, podczas gdy Dall-E 3 po prostu dodał wiele wyrazistych szczegółów i jasnych kolorów do tła.

podpowiedź: zdjęcie z lat 80. przedstawiające pulchne, grube koty biorące udział w zajęciach aerobiku w zabawnych legginsach w panterkę i różowym body zostało zrobione aparatem Kodak Gold 200.

Koty znów są w doskonałej formie, a obie sieci neuronowe doskonale radzą sobie z kamerami filmowymi. Jednak Dall-E 3 dodaje nawet ziarnistości do zdjęć.

Lata 1990. Leonardo DiCaprio gra mistrza Jedi na rosyjskiej daczy, dzierżąc miecz świetlny i ubrany w dzianinowy zielony sweter.

Dall-E 3 stworzył młodego Leonarda DiCaprio z fajnymi teksturami swetrów, dodał filmowe ziarno i kolorystykę i bardzo fajnie odzwierciedlił atmosferę rosyjskiej daczy. Midjourney dobrze oddawała kolorystykę filmu, a DiCaprio nadał jej bardziej dojrzały wygląd.

podpowiedź: kolaż Gwiezdne Wojny obrazy w stylu retro vintage

Chociaż oba sieci neuronowe są biegli w tworzeniu kolaży, jeśli przyjrzysz się uważnie, Midjourney zniekształca twarze i kształty niektórych obiektów, podczas gdy Dall-E 3 jest dokładniejszy w wykonaniu samych postaci – okazało się nawet, że jest to Chewbacca.

podpowiedź: zdjęcie rosyjskiej meduzy gorgony ubranej w modny streetwear Balenciagi i przechadzającej się ulicą na Manhattanie z wężami zamiast włosów

Kiedy przybliżysz zdjęcia, zauważysz, że Dall-E 3 ma zamazane oczy; Midjourneyz drugiej strony jest bez zarzutu. Dall-E 3 również przepisał markę; węże na głowach wydają się bardziej żywe i w ruchu; Midjourney zawsze kazał im leżeć, a nie na głowie.

Podpowiedź: To wielokrotnie nagradzane zdjęcie autorstwa Slima Aaronsa przedstawia człowieka-pająka przebranego za wróżkę, ubranego w różową puszystą sukienkę i trzymającego magiczną różdżkę. Zdjęcia wykonano aparatem Fuji Superia X-TRA 800.

Obydwa są fajne, ale Midjourney uwzględnił styl artysty i efekt kamery filmowej, podczas gdy Dall-E 3 zignorował ujęcie pełnometrażowe i nie wziął go pod uwagę.

podpowiedź: wróżka ZSRR ze skrzydłami i kostiumem astronauty

Podjęliśmy też decyzję o przetestowaniu zdjęcia z wróżkami, ale Dall-E 3 uparcie odmawiał współpracy. Midjourney nie zignorował skrzydeł, ponieważ dodano odniesienie ze skrzydłami. Kiedy Dall-E 3 zrobił zdjęcie, oferowało kilka intrygujących możliwości, ale z Amerykanką.

podpowiedź: ślimak pozujący do portretu w nowoczesnym stroju hipsterskim, złożone warstwy i tekstury 4K, szczegółowy projekt postaci i ziarno filmowe. W tle znajdują się żywe, fantazyjne i kolorowe sceny.

Midjourney wykonaliśmy fantastyczną robotę, ale chcemy zwrócić szczególną uwagę na to, jak Dall-E 3 stworzył efekty filmowe na prawym górnym zdjęciu i dodał własne białe pismo odręczne; wyszło świetnie.

podpowiedź: Spider-Man, Batman i Iron Man spotkali się na piwie w barze.

Dall-E 3 był w stanie bardzo posłusznie ukazać wszystkich bohaterów podpowiedzi na jednym obrazie. Midjourney bardzo się starał, a nawet był bliski osiągnięcia sukcesu.

Podpowiedź: Letnia sałatka z pomidorów i ogórków, makro, pełna scena, ciepłe kolory, wysokiej jakości fotorealistyczna hiperrealistyczna, naturalne oświetlenie, Silnik Unreal 5, korekcja kolorów, fotografia redakcyjna, fotografia, sesja zdjęciowa, wysoki, epicki, artgerm, zdjęcie obiektywem 70 mm, głębia ostrości, DOF, rozmycie pochylenia, czas otwarcia migawki 1/1000, F/22, balans bieli, 32k, super-rozdzielczość

Na pierwszy rzut oka wydaje się, że oba są dobre, ale bliższa analiza pokazuje, że Dall-E 3 brakuje fotorealistycznej objętości i że Midjourney z hukiem radził sobie z połączeniami widelcami.

podpowiedź: McDonald's w stylu pomysłowych kosmicznych krajobrazów z realistycznymi postaciami ludzkimi, dwoma samochodami i traktorem, nad którym znajduje się księżyc. Les Nasbis, Pierre Pellegrini, oparte na nauce, pionierskie odważne nasycenie, firecore

Obydwa generatory są biegli w swoich dziedzinach, przy czym Dall-E 3 specjalizuje się w tekstach i Midjourney wyróżnia się fotorealizmem.

Suszarka do włosów BaByliss D570DE sprawdzi się w nowoczesnych wnętrzach z wieczornym oświetleniem, industrialnym designem i pastelowymi kolorami, idealna na sesję studyjną.

Fizyka i geometria suszarek do włosów są trudne Midjourney. Można spędzić dużo czasu zmagając się z próbami i referencjami, a czasami rezultaty przypominają suszarkę do włosów, ale Dall-E 3 dał akceptowalny wynik za pierwszym razem, a nawet napisał tekst.

podpowiedź: zdjęcie jednookiej Turangi Leeli z futuramy

Jedyne oko jest dobre, ale to inna historia. W Midjourney, napisaliśmy negatywną zachętę – bez kreskówki, ilustracji, płasko, dwoje oczu. Dall-E 3 natychmiast posłuchała i spuściła jedno oko, uśmiechnęła się i zdjęła kapelusz, ale kategorycznie nie pozwoliła nikomu zrobić sobie zdjęcia.

Aktora Brada Pitta można zobaczyć w latach 1990. podlewającego grządki w ogródku warzywnym na rosyjskiej daczy, ubranego w podkoszulek w paski i spodnie dresowe adidas. Scena została uchwycona kamerą Agfa Vista 400.

Midjourney sprawiło, że pokolenie nie było takie jak Brad, więc skorzystaliśmy z dodatkowej usługi Insight Zamiana twarzy ukazanie twarzy Brada w pokoleniu; był tu post na ten temat. Dall-E 3 wie, kim jest Brad Pitt i potrafi rysować gwiazdy bez dodatkowego oprogramowania.

zachęta: piękna dziewczyna, jednorożce, technologie Apple i kolaż galaktyk w stylu retro

Obie siatki są dobre, ale Dall-E 3 może jednocześnie tworzyć rogi jednorożca Midjourney zazwyczaj nie.

podpowiedź: lody w dłoni, odzież sportowa Nike i oszałamiający elf fantasy siedzący obok orka na ulicznym zdjęciu.

Dall-E 3 wykonał dobrą robotę, wprowadzając postacie do akcji; widzimy orka i elfa z elfimi uszami. Jest też osoba ubrana w dres Nike, ale ma zamazane oczy. Elfie spiczaste uszy są w większości ignorowane Midjourney, a Nike również jest pomijane.

podpowiedź: rysunek wróżki ZSRR przebranej za astronautę

Kiedy początkowo w wierszu zachęty pominięto „ilustrację” w języku postscriptowym, Dall-E 3 ją utworzył. Następnie postanowiliśmy porównać to z Midjourneyilustracja. Chwila Midjourney bardziej przypominał ilustracje z czasów radzieckich i nie zawierał skrzydeł wróżki, Dall-E 3 wykonał fantastyczną robotę, rysując sierp i młot. Przykład po prawej stronie pokazuje, jak Dall-E 3 może wyglądać w tekście.

podpowiedź: dacza na Jowiszu, w oddali widać pierścienie orbitalne planety, kosmita gotuje grilla, skomplikowane projekty postaci, jasne, zwariowane i kolorowe tła, pastelowa korekcja kolorów w stylu filmów Wesa Andersona, ziarno filmu i Tokina AT -X 11-16mm f/2.8 Pro dX II

Jednakże, Midjourney poszedł w stronę fotorealizmu; na zdjęciach nie ma głównego bohatera, tylko otoczenie, ale i tak jest fajnie. Dall-E 3 nie chciał ponownie znaleźć się na zdjęciu.

podpowiedzi: ziarno filmu, karma dla psów, skomplikowany projekt postaci, warstwy i tekstury, jasne, odlotowe i kolorowe sceny w tle oraz korekcja pastelowych kolorów jak w filmie Wesa Andersona

Dall-E 3 vs. Midjourney: Plusy i minusy

W miarę odkrywania przez użytkowników tej technologii na światło dzienne wyszło kilka znaczących zalet i ograniczeń, co pozwala na lepszy wgląd w jej funkcjonalność.

Plusy:

  1. Natychmiastowe posłuszeństwo: Jedną z wyróżniających się cech Dall-E 3 jest jego niezwykła zdolność dokładnego wykonywania poleceń. Użytkownicy zgłaszali, że model sztucznej inteligencji skutecznie reaguje na szeroki zakres danych wejściowych, co czyni go wszechstronnym narzędziem do różnych zadań.
  2. Wieloaspektowa kreatywność: Dall-E 3 umożliwia przedstawienie wielu postaci na jednym obrazie, co rozszerza jego potencjał w zakresie opowiadania historii i kreatywnych projektów. To wieloaspektowe podejście zwiększa jego użyteczność w różnych dziedzinach.
  3. Integracja tekstu: Użytkownicy zauważyli biegłość Dall-E 3 w płynnym integrowaniu tekstu z obrazami. Ta funkcja ułatwia tworzenie angażujących wizualnie treści z osadzonymi elementami tekstowymi.

Wady:

  1. Klarowność obrazu: Godnym uwagi ograniczeniem jest tendencja sztucznej inteligencji do tworzenia obrazów z rozmytymi twarzami i oczami. Chociaż wyróżnia się kreatywnością, czasami brakuje mu przejrzystości i precyzji widocznych w treściach generowanych przez ludzi.
  2. Spójność stylu: Dall-E 3 nie odtwarza konsekwentnie stylów konkretnych artystów, co może być wadą dla poszukujących precyzyjnej emulacji artystycznej.
  3. Wymagania VPN: Dostęp do Dall-E 3 wymaga obecnie korzystania z VPN, co może powodować problemy z dostępnością dla niektórych użytkowników.
  4. Zarządzanie obrazami: Użytkownicy napotkali ograniczenia podczas zarządzania wygenerowanymi obrazami w witrynie Microsoft Bing. Warto zauważyć, że nie ma funkcji orientacji formatu, a historia obrazów ogranicza się do ostatnio przesłanych obrazów, co wymaga natychmiastowego skopiowania do późniejszego wykorzystania.
  5. Szybkość generacji: W niektórych przypadkach zgłaszano, że proces generowania w Dall-E 3 jest wolniejszy w porównaniu z innymi modelami AI.

Pomimo tych ograniczeń Dall-E 3 jest naprawdę obiecujący. Zarówno użytkownicy, jak i eksperci dostrzegają jego potencjał do zrewolucjonizowania tworzenia treści i opowiadania historii. Jak OpenAI nadal udoskonala i poszerza swoją ofertę, oczekuje się, że mocne strony Dall-E 3 zabłysną jeszcze jaśniej, czyniąc go cennym narzędziem w różnych dziedzinach.

Najczęściej zadawane pytania

Zarówno Dall-E 3, jak i Midjourney mają swoje mocne i słabe strony. Dall-E 3 jest szczególnie posłuszny monitom i może płynnie integrować tekst z obrazami. Czasami jednak tworzy obrazy z rozmytymi twarzami i oczami i może nie odzwierciedlać konsekwentnie stylów określonych artystów. Z drugiej strony, Midjourney wyróżnia się fotorealizmem, ale nie zawsze może uchwycić istotę niektórych podpowiedzi tak dokładnie jak Dall-E 3.

W artykule znajdują się podpowiedzi polegające na zamianie tekstu na obraz, prezentujące wyniki zarówno z Dall-E 3, jak i Midjourneyi wyjaśnia różnice między dwoma generatorami dzieł sztuki.

Obydwa modele AI mają swoje mocne i słabe strony. Na przykład w pytaniu dotyczącym kosmonauty na Jowiszu: Midjourney nieco przewyższał Dall-E 3. Jednak w innym monicie dotyczącym Wonder Woman Dall-E 3 lepiej uchwycił istotę podpowiedzi.

  • Natychmiastowe posłuszeństwo: Dall-E 3 dokładnie postępuje zgodnie ze wskazówkami.
  • Wieloaspektowa kreatywność: Może przedstawiać wiele postaci na jednym obrazie.
  • Integracja tekstu: Dall-E 3 może płynnie integrować tekst z obrazami.
  • Przejrzystość obrazu: Czasami tworzy obrazy z rozmytymi twarzami i oczami.
  • Spójność stylu: Dall-E 3 nie odtwarza konsekwentnie stylów konkretnych artystów.
  • Zarządzanie obrazami: Istnieją ograniczenia w zarządzaniu wygenerowanymi obrazami w witrynie Microsoft Bing.
  • Szybkość generacji: Proces generowania Dall-E 3 może być wolniejszy w porównaniu do innych modeli AI.

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Hot Stories
Dołącz do naszego newslettera.
Najnowsze wieści

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Side Protocol uruchamia motywacyjną sieć testową i wprowadza system punktów Insider, umożliwiający użytkownikom zdobywanie punktów SIDE
rynki Raport aktualności Technologia
Side Protocol uruchamia motywacyjną sieć testową i wprowadza system punktów Insider, umożliwiający użytkownikom zdobywanie punktów SIDE
9 maja 2024 r.
Web3 i Crypto Events w maju 2024 r.: Odkrywanie nowych technologii i pojawiających się trendów w Blockchain i DeFi
Digest Biznes rynki Technologia
Web3 i Crypto Events w maju 2024 r.: Odkrywanie nowych technologii i pojawiających się trendów w Blockchain i DeFi
9 maja 2024 r.
Notcoin zostanie uruchomiony w OKX Jumpstart i oferuje 1.25% całkowitej podaży tokenów dla górnictwa
rynki Raport aktualności Technologia
Notcoin zostanie uruchomiony w OKX Jumpstart i oferuje 1.25% całkowitej podaży tokenów dla górnictwa
9 maja 2024 r.
Puffer Finance uruchamia swoją sieć główną, zwiększając włączenie operatorów węzłów na potrzeby decentralizacji sieci
Raport aktualności Technologia
Puffer Finance uruchamia swoją sieć główną, zwiększając włączenie operatorów węzłów na potrzeby decentralizacji sieci
9 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.