Dall-E 3 vs. Midjourney: Duże porównanie najbardziej zaawansowanych generatorów sztuki AI
Dołącz do nas w tej ekscytującej podróży, podczas której będziemy odkrywać Dall-E 3 i Midjourneysubtelności, złożoności i niewykorzystanego potencjału. W tym artykule omówiono najbardziej intrygujące porównania oparte na badaniach przeprowadzonych przez entuzjastę sztucznej inteligencji Atachkinę; jeśli chcesz dowiedzieć się więcej, kliknij link.
Pro Tips |
---|
1. Odkryj 50 najważniejszych podpowiedzi dotyczących zamiany tekstu na obraz dla generatorów sztuki AI Midjourney i DALL-E. |
2. Rozpal swoją kreatywność dzięki 20 najlepszych generatorów grafiki AI przekształcających tekst na obraz z 2023. |
W tym artykule zamieszczono zachętę do zamiany tekstu na obraz, czyli obraz przedstawiający wyniki testu Dall-E 3 i Midjourneyoraz wyjaśnienie różnic między nimi generatory sztuki. Zaczynajmy.
Obie sieci neuronowe spisały się w tym przypadku znakomicie, m.in Midjourney nieznacznie przewyższający pozostałe.
Dall-E 3 spisał się tutaj znacznie gorzej; uzyskał jasne kolory stylów, ale nie klarowność szczegółów; w tle pojawiały się zdeformowane ciała, a twarze wcale nie były udane.
W obu miejscach okazało się ciekawie, jednak Dall-E 3 po raz kolejny zmagał się z twarzami. Zamiast tego zrobił pluszową beżową torbę zgodnie z instrukcją, i Midjourney zlekceważył to. W tym przypadku Dall-E 3 wykazał się bardzo posłusznym wykonaniem polecenia.
I po raz kolejny, podczas gdy obie siatki tworzą doskonałe kolaże, Dall-E 3 jest bardziej wierny wskazówkom; dodał tylko określonych przez nas bohaterów, nie mógł zamienić się w jokera i skojarzył kapitana z Batmanem.
Midjourney był w stanie połączyć style obu artystów z podpowiedzi, podczas gdy Dall-E 3 po prostu dodał wiele wyrazistych szczegółów i jasnych kolorów do tła.
Koty znów są w doskonałej formie, a obie sieci neuronowe doskonale radzą sobie z kamerami filmowymi. Jednak Dall-E 3 dodaje nawet ziarnistości do zdjęć.
Dall-E 3 stworzył młodego Leonarda DiCaprio z fajnymi teksturami swetrów, dodał filmowe ziarno i kolorystykę i bardzo fajnie odzwierciedlił atmosferę rosyjskiej daczy. Midjourney dobrze oddawała kolorystykę filmu, a DiCaprio nadał jej bardziej dojrzały wygląd.
Chociaż oba sieci neuronowe są biegli w tworzeniu kolaży, jeśli przyjrzysz się uważnie, Midjourney zniekształca twarze i kształty niektórych obiektów, podczas gdy Dall-E 3 jest dokładniejszy w wykonaniu samych postaci – okazało się nawet, że jest to Chewbacca.
Kiedy przybliżysz zdjęcia, zauważysz, że Dall-E 3 ma zamazane oczy; Midjourneyz drugiej strony jest bez zarzutu. Dall-E 3 również przepisał markę; węże na głowach wydają się bardziej żywe i w ruchu; Midjourney zawsze kazał im leżeć, a nie na głowie.
Obydwa są fajne, ale Midjourney uwzględnił styl artysty i efekt kamery filmowej, podczas gdy Dall-E 3 zignorował ujęcie pełnometrażowe i nie wziął go pod uwagę.
Podjęliśmy też decyzję o przetestowaniu zdjęcia z wróżkami, ale Dall-E 3 uparcie odmawiał współpracy. Midjourney nie zignorował skrzydeł, ponieważ dodano odniesienie ze skrzydłami. Kiedy Dall-E 3 zrobił zdjęcie, oferowało kilka intrygujących możliwości, ale z Amerykanką.
Midjourney wykonaliśmy fantastyczną robotę, ale chcemy zwrócić szczególną uwagę na to, jak Dall-E 3 stworzył efekty filmowe na prawym górnym zdjęciu i dodał własne białe pismo odręczne; wyszło świetnie.
Dall-E 3 był w stanie bardzo posłusznie ukazać wszystkich bohaterów podpowiedzi na jednym obrazie. Midjourney bardzo się starał, a nawet był bliski osiągnięcia sukcesu.
Na pierwszy rzut oka wydaje się, że oba są dobre, ale bliższa analiza pokazuje, że Dall-E 3 brakuje fotorealistycznej objętości i że Midjourney z hukiem radził sobie z połączeniami widelcami.
Obydwa generatory są biegli w swoich dziedzinach, przy czym Dall-E 3 specjalizuje się w tekstach i Midjourney wyróżnia się fotorealizmem.
Fizyka i geometria suszarek do włosów są trudne Midjourney. Można spędzić dużo czasu zmagając się z próbami i referencjami, a czasami rezultaty przypominają suszarkę do włosów, ale Dall-E 3 dał akceptowalny wynik za pierwszym razem, a nawet napisał tekst.
Jedyne oko jest dobre, ale to inna historia. W Midjourney, napisaliśmy negatywną zachętę – bez kreskówki, ilustracji, płasko, dwoje oczu. Dall-E 3 natychmiast posłuchała i spuściła jedno oko, uśmiechnęła się i zdjęła kapelusz, ale kategorycznie nie pozwoliła nikomu zrobić sobie zdjęcia.
Midjourney sprawiło, że pokolenie nie było takie jak Brad, więc skorzystaliśmy z dodatkowej usługi Insight Zamiana twarzy ukazanie twarzy Brada w pokoleniu; był tu post na ten temat. Dall-E 3 wie, kim jest Brad Pitt i potrafi rysować gwiazdy bez dodatkowego oprogramowania.
Obie siatki są dobre, ale Dall-E 3 może jednocześnie tworzyć rogi jednorożca Midjourney zazwyczaj nie.
Dall-E 3 wykonał dobrą robotę, wprowadzając postacie do akcji; widzimy orka i elfa z elfimi uszami. Jest też osoba ubrana w dres Nike, ale ma zamazane oczy. Elfie spiczaste uszy są w większości ignorowane Midjourney, a Nike również jest pomijane.
Kiedy początkowo w wierszu zachęty pominięto „ilustrację” w języku postscriptowym, Dall-E 3 ją utworzył. Następnie postanowiliśmy porównać to z Midjourneyilustracja. Chwila Midjourney bardziej przypominał ilustracje z czasów radzieckich i nie zawierał skrzydeł wróżki, Dall-E 3 wykonał fantastyczną robotę, rysując sierp i młot. Przykład po prawej stronie pokazuje, jak Dall-E 3 może wyglądać w tekście.
Jednakże, Midjourney poszedł w stronę fotorealizmu; na zdjęciach nie ma głównego bohatera, tylko otoczenie, ale i tak jest fajnie. Dall-E 3 nie chciał ponownie znaleźć się na zdjęciu.
Dall-E 3 vs. Midjourney: Plusy i minusy
W miarę odkrywania przez użytkowników tej technologii na światło dzienne wyszło kilka znaczących zalet i ograniczeń, co pozwala na lepszy wgląd w jej funkcjonalność.
Plusy:
- Natychmiastowe posłuszeństwo: Jedną z wyróżniających się cech Dall-E 3 jest jego niezwykła zdolność dokładnego wykonywania poleceń. Użytkownicy zgłaszali, że model sztucznej inteligencji skutecznie reaguje na szeroki zakres danych wejściowych, co czyni go wszechstronnym narzędziem do różnych zadań.
- Wieloaspektowa kreatywność: Dall-E 3 umożliwia przedstawienie wielu postaci na jednym obrazie, co rozszerza jego potencjał w zakresie opowiadania historii i kreatywnych projektów. To wieloaspektowe podejście zwiększa jego użyteczność w różnych dziedzinach.
- Integracja tekstu: Użytkownicy zauważyli biegłość Dall-E 3 w płynnym integrowaniu tekstu z obrazami. Ta funkcja ułatwia tworzenie angażujących wizualnie treści z osadzonymi elementami tekstowymi.
Wady:
- Klarowność obrazu: Godnym uwagi ograniczeniem jest tendencja sztucznej inteligencji do tworzenia obrazów z rozmytymi twarzami i oczami. Chociaż wyróżnia się kreatywnością, czasami brakuje mu przejrzystości i precyzji widocznych w treściach generowanych przez ludzi.
- Spójność stylu: Dall-E 3 nie odtwarza konsekwentnie stylów konkretnych artystów, co może być wadą dla poszukujących precyzyjnej emulacji artystycznej.
- Wymagania VPN: Dostęp do Dall-E 3 wymaga obecnie korzystania z VPN, co może powodować problemy z dostępnością dla niektórych użytkowników.
- Zarządzanie obrazami: Użytkownicy napotkali ograniczenia podczas zarządzania wygenerowanymi obrazami w witrynie Microsoft Bing. Warto zauważyć, że nie ma funkcji orientacji formatu, a historia obrazów ogranicza się do ostatnio przesłanych obrazów, co wymaga natychmiastowego skopiowania do późniejszego wykorzystania.
- Szybkość generacji: W niektórych przypadkach zgłaszano, że proces generowania w Dall-E 3 jest wolniejszy w porównaniu z innymi modelami AI.
Pomimo tych ograniczeń Dall-E 3 jest naprawdę obiecujący. Zarówno użytkownicy, jak i eksperci dostrzegają jego potencjał do zrewolucjonizowania tworzenia treści i opowiadania historii. Jak OpenAI nadal udoskonala i poszerza swoją ofertę, oczekuje się, że mocne strony Dall-E 3 zabłysną jeszcze jaśniej, czyniąc go cennym narzędziem w różnych dziedzinach.
Najczęściej zadawane pytania
Zarówno Dall-E 3, jak i Midjourney mają swoje mocne i słabe strony. Dall-E 3 jest szczególnie posłuszny monitom i może płynnie integrować tekst z obrazami. Czasami jednak tworzy obrazy z rozmytymi twarzami i oczami i może nie odzwierciedlać konsekwentnie stylów określonych artystów. Z drugiej strony, Midjourney wyróżnia się fotorealizmem, ale nie zawsze może uchwycić istotę niektórych podpowiedzi tak dokładnie jak Dall-E 3.
W artykule znajdują się podpowiedzi polegające na zamianie tekstu na obraz, prezentujące wyniki zarówno z Dall-E 3, jak i Midjourneyi wyjaśnia różnice między dwoma generatorami dzieł sztuki.
Obydwa modele AI mają swoje mocne i słabe strony. Na przykład w pytaniu dotyczącym kosmonauty na Jowiszu: Midjourney nieco przewyższał Dall-E 3. Jednak w innym monicie dotyczącym Wonder Woman Dall-E 3 lepiej uchwycił istotę podpowiedzi.
- Natychmiastowe posłuszeństwo: Dall-E 3 dokładnie postępuje zgodnie ze wskazówkami.
- Wieloaspektowa kreatywność: Może przedstawiać wiele postaci na jednym obrazie.
- Integracja tekstu: Dall-E 3 może płynnie integrować tekst z obrazami.
- Przejrzystość obrazu: Czasami tworzy obrazy z rozmytymi twarzami i oczami.
- Spójność stylu: Dall-E 3 nie odtwarza konsekwentnie stylów konkretnych artystów.
- Zarządzanie obrazami: Istnieją ograniczenia w zarządzaniu wygenerowanymi obrazami w witrynie Microsoft Bing.
- Szybkość generacji: Proces generowania Dall-E 3 może być wolniejszy w porównaniu do innych modeli AI.
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.
Więcej artykułówDamir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.