Raport aktualności Technologia
21 września 2023 r.

Wzmacniacz wydania DALL-E 3 OpenAIWpływ, odejście Midjourney i Stable Diffusion Za

W skrócie

DALL-E 3 można bezproblemowo zintegrować z GPT-4, specjalnie dostosowane do ChatGPT+ abonentów.

DALL-E 3 powstrzymuje się od odtwarzania wizerunków osób publicznych, gdy ich nazwiska są wyraźnie wymienione.

Harmonogram dostępu do DALL-E 3 wyznaczono na październik.

OpenAI zaprezentowała swoje najnowsze dzieło: DALL-E3. W przeciwieństwie do swoich poprzedników, DALL-E 3 skupia się na dopracowaniu najdrobniejszych szczegółów, rozwiązując problemy takie jak litery i skomplikowane detale ciała, takie jak palce. Wynik? Szereg estetycznych obrazów bez konieczności stosowania skomplikowanych podpowiedzi i obejść.

Wzmacniacz wydania DALL-E 3 OpenAIWpływ, odejście Midjourney i Stable Diffusion Za

Należy pamiętać, że ta wersja nie zawiera kompleksowego zestawu szczegółów implementacji, artykułów ani interfejsów API. Zamiast tego DALL-E 3 można bezproblemowo zintegrować z GPT-4, specjalnie dostosowane do ChatGPT+ abonentów.

Rozwój ten może nie być wstrząsającą zmianą w krajobrazie sztucznej inteligencji, ale raczej krokiem naprzód we współpracy między modelami. Wielu przewiduje, że następny Stable Diffusion model zaoferuje jeszcze większe wyrafinowanie i atrakcyjność artystyczną.

Aby umieścić to w kontekście, OpenAIpodróż przez generowanie obrazów AI była niezłą przejażdżką:

  • 2021: Wprowadzono DALL-E 1, model zawierający 12 miliardów parametrów, z ograniczonymi informacjami.
  • 2021: Zaprezentowano GLIDE, model zawierający 2 miliardy parametrów, oraz modele open source zawierające 300 milionów parametrów.
  • 2022: Pojawił się DALL-E 2, posiadający 2 miliardy parametrów, z dokumentacją unCLIP i interfejsem API.
  • 2023: DALL-E 3 pojawił się na rynku i chociaż szczegóły mogą być nieco tajemnicze, jedno jest pewne — zintegruje się z GPT-4 dla ChatGPT+ abonentów.

Jak na razie wizualizacje DALL-E 3 są dość skąpe. Nie ma bazy kodu, wpisu na blogu ani szczegółowego porównania z najnowocześniejszym rozwiązaniem (SOTA). OpenAI wydaje się, że trzyma karty blisko piersi.

Wzmacniacz wydania DALL-E 3 OpenAIWpływ, odejście Midjourney i Stable Diffusion Za

Model ten jest reklamowany jako posiadający głębsze zrozumienie niuansów i szczegółów w porównaniu do swoich poprzedników. Oznacza to, że przełożenie kreatywnych koncepcji na bardzo precyzyjne obrazy będzie przebiegać płynniej.

Intrygującą obietnicą DALL-E 3 jest jego integracja z ChatGPT. Oznacza to, że użytkownicy nie będą musieli męczyć się z tworzeniem skomplikowanych podpowiedzi; powinien wystarczyć krótki opis, z ChatGPT umiejętnie generując szczegółowe podpowiedzi w Twoim imieniu.

OpenAI podkreślił również znaczenie kontekstu w długich podpowiedziach. DALL-E 3 został zaprojektowany z myślą o gadatliwości, dzięki czemu jest bardziej dostosowany do kontekstu opisanego w rozbudowanych podpowiedziach.

Jednak, jak w przypadku każdego nowego modelu sztucznej inteligencji, istnieje element nieznanego. Chociaż początkowe przebłyski wyglądają obiecująco, prawdziwy test lakmusowy nadejdzie wraz z dłuższym użytkowaniem. Powracają pytania o jego wydajność i szybkość działania.

Jest prawdopodobne, że DALL-E 3 będzie procesem wieloetapowym GPT-4 pełniący funkcję kodera tekstu. Skomplikowana mechanika tej konfiguracji może pozostać owiana tajemnicą.

Harmonogram dostępu do DALL-E 3 ustalono na październik, początkowo na ChatGPT Plus i ChatGPT Użytkownik korporacyjnys, z możliwością szerszego dostępu dla badaczy w późniejszym terminie.

Związane z: OpenAIAltman w Senacie USA w celu omówienia zagrożeń związanych ze sztuczną inteligencją

Niuanse i Cenzura z DALL-E 3

Głównymi punktami rozwoju DALL-E 3 był skrupulatny proces ograniczania jego możliwości. Wiązało się to ze rygorystycznym dostosowaniem i filtrami zaprojektowanymi w celu wykluczenia określonych typów treści. Modelka stanowczo odmawia na przykład generowania wizerunków znanych osobistości, replikowania dzieł sztuki w stylu uznanych artystów ani tworzenia jakichkolwiek treści uznanych przez OpenAIwymagających standardów. W tym strategicznym podejściu nie chodzi tylko o ograniczenia; jest to proaktywne działanie mające na celu ochronę firmy przed potencjalnymi uwikłaniami prawnymi.

Jednak poza tymi filtrami i ustawieniami na światło dzienne wychodzą pewne intrygujące obserwacje. DALL-E 3 wydaje się wykazywać pewną słabość, jeśli chodzi o generowanie fotorealistycznych treści. Zamiast tworzyć obrazy bezbłędnie naśladujące prawdziwe fotografie, wydruki mają wyraźną, stylizowaną jakość. Te obrazy wykonane przez sztuczną inteligencję mają niemal wyrenderowany i nieco plastikowy wygląd. Nawet przy wyraźnej podpowiedzi ze słowem „fotografia” rezultat pozostaje utrwalony w charakterystycznej stylizacji.

Podpowiedź nr 1
Podpowiedź nr 1: Zdjęcie z bliska kraba pustelnika zagnieżdżonego w mokrym piasku, z pianą morską w pobliżu i uwydatnionymi szczegółami jego skorupy oraz fakturą piasku.
Podpowiedź nr 2
Podpowiedź nr 2: W przytulnym salonie znajduje się jaskrawo żółta kanapa w kształcie banana, której krzywizna obejmuje stos kolorowych poduszek. na drewnianej podłodze wzorzysty dywan dodaje eklektycznego uroku, a w rogu umieszczono roślinę doniczkową, sięgającą w stronę światła słonecznego wpadającego przez okno.
Podpowiedź nr 3
Podpowiedź nr 3: Zdjęcie starożytnego wraku statku położonego na dnie oceanu. Rośliny morskie zajęły drewnianą konstrukcję, a ryby pływają w jej pustych przestrzeniach. W okolicy rozsiane są zatopione skarby i stare armaty, dzięki czemu można zajrzeć w przeszłość.

Warto zauważyć, że pomimo tych osobliwości, DALL-E 3 oferuje przebłysk niezwykłego potencjału. Wśród jego dzieł niektóre egzemplarze wykazują uderzające podobieństwo do fotografii. Należy pamiętać, że symulowany realizm tych obrazów niekoniecznie pokrywa się z tym, jak wyglądałaby autentyczna fotografia tego samego obiektu, zwłaszcza po zanurzeniu pod wodą.

Związane z: Firma Microsoft zaprezentowała Designer, pierwsze profesjonalne narzędzie zamiany tekstu na obraz oparte na DALL-E 2

Funkcje i szczegóły DALL-E 3

Poświęćmy chwilę na przejrzenie pikseli i przeczytanie między wierszami, aby zrozumieć, co naprawdę oferuje ten nowy model.

Sztuka stylizacji: Przeglądając OpenAIkonto na Instagramie, zauważysz mnóstwo dzieł sztuki charakteryzujących się wykwintną stylizacją. Chociaż dostępna jest imponująca gama abstrakcyjnych kompozycji i projektów, modelka wydaje się unikać tworzenia fotorealistycznych treści. Nacisk położony jest tutaj na estetykę i kreatywność, a nie na naśladowanie rzeczywistości.

Ograniczenia artystyczne: DALL-E 3 podąża inną drogą niż jego poprzednik. Stanowczo odmawia tworzenia obrazów w stylu żyjących artystów, co stanowi radykalne odejście od DALL-E 2, który mógłby naśladować styl niektórych artystów. Może to wywołać zdziwienie w środowisku kreatywnym, podobnie jak letni odbiór Stable Diffusion 2.0.

Wzmacnianie artystów: W dążeniu do poszanowania praw artystów OpenAI umożliwia artystom wykluczenie ich prac z przyszłych wersji DALL-E. Artyści przesyłając zdjęcie, do którego posiadają prawa, mogą zażądać jego wykluczenia z twórczości modelki. Przyszłe iteracje DALL-E pozwolą uniknąć generowania treści przypominających styl artysty.

Bezpieczeństwo i cenzura: OpenAIParanoja dotycząca bezpieczeństwa jest wyraźna. Współpracowali z zewnętrznymi „czerwonymi zespołami”, aby przetestować bezpieczeństwo modelu i zastosowali klasyfikatory wejściowe, aby nauczyć model ignorowania określonych słów, które mogą prowadzić do treści wulgarnych lub szkodliwych. DALL-E 3 powstrzymuje się od odtwarzania obrazów osoby publiczne gdy ich nazwiska są wyraźnie wymienione. Nie jest pewne, czy celebryci należą do tej kategorii, co może mieć wpływ na jakość generowanych twarzy.

Znaki wodne i śledzenie: znajduje się wskazówka dotycząca osadzania tagów w celu śledzenia „obrazów generowanych przez sztuczną inteligencję”, co wskazuje na krok w kierunku lepszego monitorowania i potencjalnego oznaczania treści generowanych znakami wodnymi.

Ulepszono tekst i wskazówki: OpenAI zachwala ulepszone generowanie tekstu i renderowanie ręczne, co jest częstym twierdzeniem konkurencji. Prawdziwym testem są rzeczywiste wyniki wykraczające poza wybrane przykłady.

Rozumienie przestrzenne: DALL-E 3 wyróżnia się zrozumieniem zależności przestrzennych opisanych w podpowiedziach. Zwiększa to zdolność modelu do konstruowania złożonych kątów i kompozycji, chociaż użytkownicy czekają na bardziej konkretne dowody potwierdzające tę obietnicę.

Siła podpowiedzi: Sedno DALL-E3 polega na jego szybkich możliwościach i integracji z ChatGPT. Obiecuje automatyzację, szybkość i uproszczenie szybkiego projektowania. Trend jest tutaj skierowany w stronę chatGPT generowanie podpowiedzi, tłumacząc niejasne pomysły lub podstawowe podpowiedzi na wymowne. Lepsze zrozumienie kontekstu w DALL-E 3 usprawnia ten proces, pozwalając użytkownikom skupić się na intencjach, a nie na gadatliwości.

Niezbadane terytoria: W dyskusji pominięto zwłaszcza takie aspekty, jak malowanie, przemalowywanie, wypełnianie generatywne i modelowanie 3D. Brak tych funkcji może stanowić ograniczenie, szczególnie dla użytkowników przyzwyczajonych do bardziej uniwersalnych modeli.

Szczegóły dostępu: DALL-E 3 będzie dostępny dla ChatGPT Klienci Plusa i Enterprise na początku października. Jednakże specyfika dotycząca przydziału punktów za ChatGPT Użytkownicy Plus i związane z tym koszty pozostają niejasne. Dostęp będzie zapewniony poprzez API i OpenAI Platforma Labs „później jesienią”.

Siła integracji: DALL-E można bezproblemowo zintegrować z produktami partnerów i firmy Microsoft. Spodziewaj się, że będziesz świadkiem tworzenia prezentacji, ilustracji, projektów i logo, a wszystko to w kontekście i wzmocnione przy pomocy ChatGPT. Integracja ta stanie się głównym nurtem, stanowiąc poważne wyzwanie dla takich konkurentów jak Google ze swoim Bardem i Ideogram.

Konwergencja LLM i treści wizualnych: Najbardziej intrygujący aspekt polega na zbieżności modeli dużego języka (LLM) i modeli generowania treści wizualnych. Oznacza przejście od złożonej, szybkiej inżynierii do wyrażania pomysłów w bardziej przystępnym języku. Sztuczna inteligencja będzie zbierać kontekst i pomysły z tych wyrażeń, oferując możliwości twórcze, którym trudno się oprzeć.

Związane z: 50 najlepszych monitów zamiany tekstu na obraz dla generatorów grafiki AI Midjourney i DALL-E

DALL-E 3: Bądź nowym liderem w generowaniu obrazów AI

OpenAIdecyzja firmy o zintegrowaniu DALL-E 3 z ChatGPT ekosystemu to posunięcie strategiczne. Integracja ta zapewnia DALL-E 3 dostęp do ogromnej bazy danych użytkowników, liczącej 100 milionów aktywnych użytkowników. Ten krok znacznie zwiększa dostępność DALL-E 3 i może potencjalnie zwiększyć jego popularność.

Obecnie Midjourney i Stable Diffusion przechwalać się 15 milion zarejestrowanych użytkowników. Jednak dzięki tej integracji DALL-E 3 uzyska dostęp do bazy użytkowników dziesięciokrotnie większej — 100 milionów użytkowników. To sprawia, że ChatGPT Subskrypcja Plus plan jest tym atrakcyjniejszy, że oferuje dostęp do chatbota, narzędzi analitycznych i generowania obrazów, a wszystko to w przystępnej cenie.

Integracja jest nie tylko korzystna dla istniejących użytkowników, ale także stanowi potężny magnes dla nowych użytkowników. Rozszerza OpenAI zasięg i popularność ekosystemu, przyciągając osoby poszukujące rozwiązań w zakresie treści generowanych przez sztuczną inteligencję.

To strategiczne posunięcie może zyskać na sile OpenAIprzychody i inne kluczowe wskaźniki. Inwestorzy spółki prawdopodobnie pozytywnie ocenią tę sytuację, szczególnie w świetle niedawnej sytuacji Spadek natężenia ruchu o 20%. podczas lata.

ChatGPT Ruch w sieci spadł we wrześniu o 20% i nadal spada

Przeczytaj więcej powiązanych tematów:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Od Ripple do Big Green DAO: jak projekty kryptowalutowe przyczyniają się do działalności charytatywnej

Przyjrzyjmy się inicjatywom wykorzystującym potencjał walut cyfrowych na cele charytatywne.

Dowiedz się więcej

AlphaFold 3, Med-Gemini i inne: sposób, w jaki sztuczna inteligencja zmieni opiekę zdrowotną w 2024 r.

Sztuczna inteligencja objawia się na różne sposoby w opiece zdrowotnej, od odkrywania nowych korelacji genetycznych po wzmacnianie zrobotyzowanych systemów chirurgicznych…

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Od Ripple do Big Green DAO: jak projekty kryptowalutowe przyczyniają się do działalności charytatywnej
Analiza krypto Wiki Biznes Edukacja Styl życia rynki Tworzenie Technologia
Od Ripple do Big Green DAO: jak projekty kryptowalutowe przyczyniają się do działalności charytatywnej
13 maja 2024 r.
AlphaFold 3, Med-Gemini i inne: sposób, w jaki sztuczna inteligencja zmieni opiekę zdrowotną w 2024 r.
AI Wiki Analiza Digest Opinia Biznes rynki Raport aktualności Tworzenie Historie i recenzje Technologia
AlphaFold 3, Med-Gemini i inne: sposób, w jaki sztuczna inteligencja zmieni opiekę zdrowotną w 2024 r.
13 maja 2024 r.
Sieć Nim wdroży ramy tokenizacji własności AI i przeprowadzi sprzedaż zysków z datą migawki zaplanowaną na maj
rynki Raport aktualności Technologia
Sieć Nim wdroży ramy tokenizacji własności AI i przeprowadzi sprzedaż zysków z datą migawki zaplanowaną na maj
13 maja 2024 r.
Binance współpracuje z Argentyną w walce z cyberprzestępczością
Opinia Biznes rynki Raport aktualności Tworzenie Technologia
Binance współpracuje z Argentyną w walce z cyberprzestępczością
13 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.