Tudósítást Technológia
21. szeptember 2023.

DALL-E 3 Release erősít OpenAI's befolyása, elhagyása Midjourney és a Stable Diffusion Mögött

Röviden

A DALL-E 3 zökkenőmentesen integrálható GPT-4, kifejezetten erre szabva ChatGPT+ előfizetők.

A DALL-E 3 tartózkodik a közéleti személyiségek képeinek újraalkotásától, ha a nevüket kifejezetten említik.

A DALL-E 3-hoz való hozzáférés idővonala októberre van beállítva.

OpenAI bemutatta legújabb szerzeményét: DALL-E3. Elődeitől eltérően a DALL-E 3 az apróságok finomítására összpontosít, olyan problémákra, mint a betűk és a bonyolult testrészletek, például az ujjak. Az eredmény? Esztétikailag tetszetős képek sora, bonyolult felszólítások vagy megoldások nélkül.

DALL-E 3 Release erősít OpenAI's befolyása, elhagyása Midjourney és a Stable Diffusion Mögött

Fontos megjegyezni, hogy ez a kiadás nem tartalmazza a megvalósítási részletek, cikkek vagy API-k átfogó készletét. Ehelyett a DALL-E 3 zökkenőmentesen integrálható GPT-4, kifejezetten erre szabva ChatGPT+ előfizetők.

Lehet, hogy ez a fejlemény nem szeizmikus elmozdulás az MI-környezetben, hanem inkább előrelépés a modellek közötti együttműködésben. Sokan arra számítanak, hogy a következő Stable Diffusion modell még nagyobb kifinomultságot és művészi vonzerőt kínál majd.

Kontextusba helyezve, OpenAIA mesterséges intelligencia képgenerálása során tett utazása meglehetősen hosszú volt:

  • 2021: A DALL-E 1, egy 12 milliárd paraméteres modellt korlátozott információval mutatták be.
  • 2021: A GLIDE, egy 2 milliárd paraméteres modell, a nyílt forráskódú, 300 milliós paraméteres modellekkel együtt került bemutatásra.
  • 2022: Megérkezett a DALL-E 2, 2 milliárd paraméterrel, egy unCLIP papírral és API-val.
  • 2023: Megjelent a DALL-E 3, és bár a részletek kissé rejtélyesek lehetnek, egy dolog világos: integrálni fog GPT-4 mert ChatGPT+ előfizetők.

Jelenleg a DALL-E 3 látványvilága kissé szűkös. Nincs kódbázis, blogbejegyzés vagy részletes összehasonlítás a legmodernebb technológiával (SOTA). OpenAI úgy tűnik, a kártyáikat a mellkasuk közelében tartják.

DALL-E 3 Release erősít OpenAI's befolyása, elhagyása Midjourney és a Stable Diffusion Mögött

A modellt úgy hirdetik, hogy elődeihez képest mélyebben ismerje az árnyalatokat és a részleteket. Ez azt jelenti, hogy a kreatív koncepciók rendkívül pontos képekké alakítása várhatóan simább folyamat lesz.

A DALL-E 3 egyik érdekes ígérete az integráció ChatGPT. Ez azt jelenti, hogy a felhasználóknak nem kell megbirkózniuk a bonyolult felszólítások elkészítésével; egy rövid leírásnak elegendőnek kell lennie ChatGPT ügyesen generál részletes felszólításokat az Ön nevében.

OpenAI a kontextus fontosságát is hangsúlyozta a hosszadalmas felszólításokban. A DALL-E 3-at úgy tervezték, hogy magába foglalja a bőbeszédűséget, így jobban igazodik a kiterjedt promptokban leírt kontextushoz.

Mégis, mint minden új AI-modellben, itt is van egy ismeretlen elem. Bár a kezdeti pillantások ígéretesnek tűnnek, az igazi lakmuszteszt hosszabb használat mellett fog megjelenni. Kérdések merülnek fel a hatékonyságával és a működési sebességével kapcsolatban.

Valószínű, hogy a DALL-E 3 egy többlépcsős diffúziós folyamat lesz GPT-4 szövegkódolóként szolgál. Ennek a beállításnak a bonyolult mechanikája továbbra is titokban maradhat.

A DALL-E 3-hoz való hozzáférés idővonala októberre van beállítva, kezdetben ChatGPT Plusz és ChatGPT Vállalati felhasználós, amely ezt követően szélesebb körű hozzáférést biztosít a kutatók számára.

Összefüggő: OpenAIAltman az Egyesült Államok Szenátusában, hogy megvitassák az AI kockázatait

árnyalatok és a Cenzúra DALL-E 3

A DALL-E 3 fejlesztésének elsődleges fókuszpontja a képességek megfékezésének aprólékos folyamata volt. Ez szigorú igazítást és szűrőket jelentett, amelyek bizonyos típusú tartalmak kizárására szolgáltak. Például a modell határozottan elutasítja, hogy híres személyiségekről képeket készítsen, műalkotásokat neves művészek stílusában reprodukáljon, vagy olyan tartalmat hozzon létre, amelyet nem biztonságosnak ítél. OpenAIigényes szabványai. Ez a stratégiai megközelítés nem csak a korlátokról szól; ez egy proaktív intézkedés, amelynek célja, hogy megvédje a vállalatot a lehetséges jogi összefonódásoktól.

Mégis, ezeken a szűrőkön és igazításokon túl néhány érdekes megfigyelés is napvilágra kerül. Úgy tűnik, hogy a DALL-E 3 bizonyos gyengeségeket mutat a fotorealisztikus tartalom létrehozása terén. Ahelyett, hogy a valódi fényképeket hibátlanul utánzó képeket készítene, a kimenet kifejezetten stilizált minőséget hordoz. Ezek a mesterséges intelligencia által készített képek szinte renderelt és enyhén plasztikus megjelenést árasztanak. Még akkor is, ha kifejezetten a „fénykép” szóra utasítják, az eredmény megmarad a jellegzetes stilizációban.

Prompt #1
1. kérdés: Közeli fénykép egy nedves homokban fészkelődött remeterákról, a közelben tengeri habbal, héjának részleteivel és a homok textúrájával.
Prompt #2
2. felszólítás: Élénk sárga banán alakú kanapé ül egy hangulatos nappaliban, íve egy halom színes párnát ölel. a fapadlón mintás szőnyeg ad egy kis eklektikus bájt, a sarokban pedig egy cserepes növény ül az ablakon beszűrődő napfény felé.
Prompt #3
3. kérdés: Egy fotó egy ősi hajóroncsról, amely az óceán fenekén fészkel. Tengeri növények birtokolták a fából készült szerkezetet, és halak úszkálnak be és ki az üreges terekből. Elsüllyedt kincsek és régi ágyúk vannak szétszórva, bepillantást nyújtva a múltba.

Érdemes megjegyezni, hogy ezen sajátosságok ellenére a DALL-E 3 figyelemre méltó lehetőségeket kínál. Alkotásai között néhány példány feltűnő hasonlóságot mutat a fényképekkel. Nem szabad megfeledkezni arról, hogy ezeknek a képeknek a szimulált valósághűsége nem feltétlenül igazodik ahhoz, ahogyan az azonos témáról készült valódi fénykép megjelenne, különösen, ha víz alá merülnek.

Összefüggő: A Microsoft bemutatta a Designert, az első professzionális DALL-E 2-n alapuló szöveg-képes eszközt

DALL-E 3 Jellemzők és részletek

Szánjunk egy percet a pixelek átvizsgálására, és olvassunk a sorok között, hogy megértsük, mit is kínál ez az új modell.

A stilizáció művészete: Átnézve OpenAIInstagram-fiókja, rengeteg műalkotást fog észrevenni, melyeket kifinomult stilizáció jellemez. Noha az absztrakt kompozíciók és tervek lenyűgöző skálája létezik, a modell úgy tűnik, elkerüli a fotorealisztikus tartalom létrehozását. A hangsúly itt az esztétikán és a kreativitáson van, nem a valóság utánzásán.

Művészeti korlátok: A DALL-E 3 más utat jár be, mint elődje. Határozottan elutasítja, hogy élő művészek stílusában hozzon létre képeket, ami határozottan eltér a DALL-E 2-től, amely utánozhat bizonyos művészek stílusait. Ez felhúzhatja a szemöldökét az alkotói közösségben, hasonlóan a langyos fogadtatáshoz Stable Diffusion 2.0.

Művészek felhatalmazása: A művészek jogainak tiszteletben tartása érdekében OpenAI lehetővé teszi a művészek számára, hogy kizárják munkáikat a jövőbeli DALL-E verziókból. A művészek egy olyan kép beküldésével, amelynek jogai a tulajdonukban vannak, kérhetik annak kizárását a modellből. A DALL-E jövőbeli iterációi elkerülik a következőhöz hasonló tartalom létrehozását művész stílusa.

Biztonság és cenzúra: OpenAITapintható a biztonsággal kapcsolatos paranoiája. Együttműködtek külső „vörös csapatokkal” a modell biztonságának tesztelésében, és bemeneti osztályozókat alkalmaztak, hogy megtanítsák a modellt, hogy figyelmen kívül hagyja azokat a szavakat, amelyek nyílt vagy káros tartalomhoz vezethetnek. A DALL-E 3 tartózkodik a képek újraalkotásától közéleti szereplők amikor a nevüket kifejezetten említik. Továbbra is bizonytalan, hogy a hírességek ebbe a kategóriába tartoznak-e, ami potenciálisan hatással lehet a generált arcok minőségére.

Vízjelek és követés: Van egy utalás a címkék beágyazására az „AI által generált képek” nyomon követésére, jelezve a jobb megfigyelés és a generált tartalom vízjelekkel való ellátásának lehetőségét.

Szöveg és kezek továbbfejlesztve: OpenAI javította a szöveggenerálást és a kézi megjelenítést, ami gyakori állítás a versenytársak körében. Az igazi próbatétel a tényleges teljesítményben rejlik, túl a cseresznyével szedett példákon.

Térbeli megértés: A DALL-E 3 kiváló a promptokban leírt térbeli kapcsolatok megértésében. Ez javítja a modell azon képességét, hogy összetett szögeket és kompozíciókat hozzon létre, bár a felhasználók ennek az ígéretnek a konkrétabb bizonyítékait várják.

A felszólítások ereje: A lényege DALL-E3 azonnali képességeiben és a vele való integrációban rejlik ChatGPT. Automatizálást, gyorsaságot és az azonnali tervezés egyszerűsítését ígéri. A tendencia itt afelé mutat chatGPT felszólításokat generál, homályos gondolatokat vagy kezdetleges felszólításokat ékesszólóvá fordítani. A DALL-E 3 továbbfejlesztett kontextusmegértése leegyszerűsíti a folyamatot, lehetővé téve a felhasználók számára, hogy a szándékosságra összpontosítsanak a szókimondás helyett.

Feltérképezetlen területek: A vitából különösen hiányoznak olyan szempontok, mint a befestés, a kifestés, a generatív kitöltés és a 3D modellezés. Ezeknek a funkcióknak a hiánya korlátot jelenthet, különösen a sokoldalúbb modellekhez szokott felhasználók számára.

Hozzáférés részletei: A DALL-E 3 elérhetővé válik ChatGPT Plusz és Enterprise ügyfelek október elején. Azonban a kreditek elosztásának sajátosságai ChatGPT A plusz felhasználók és a kapcsolódó költségek továbbra is tisztázatlanok. A hozzáférést az API-n és a OpenAI Labs platform „később ősszel”.

Integrációs képesség: A DALL-E zökkenőmentesen integrálható partner- és Microsoft-termékekbe. Várhatóan szemtanúja lesz a prezentációk, illusztrációk, tervek, logók létrehozásának, mindezt kontextusban, és a segítséggel kibővítve. ChatGPT. Ez az integráció a tervek szerint általánossá válik, és jelentős kihívás elé állítja az olyan versenytársakat, mint például Google a bárdjával és Ideogram.

Az LLM és a vizuális tartalom konvergenciája: A legérdekesebb szempont a Large Language Models (LLM) és a vizuális tartalomgenerálási modellek konvergenciájában rejlik. Ez azt jelenti, hogy elmozdulás történt az összetett azonnali tervezéstől az ötletek könnyebben elérhető nyelven történő kifejezése felé. A mesterséges intelligencia kontextust és ötleteket gyűjt ki ezekből a kifejezésekből, olyan kreatív lehetőségeket kínálva, amelyeknek nehéz ellenállni.

Összefüggő: Az 50 legjobb szöveg-képre vonatkozó felszólítás AI művészeti generátorok számára Midjourney és DALL-E

DALL-E 3: Legyen új vezető az AI-képgenerálásban

OpenAIa DALL-E 3 integrálása ChatGPT az ökoszisztéma stratégiai lépés. Ez az integráció hozzáférést biztosít a DALL-E 3 számára egy hatalmas felhasználói adatbázishoz, amely 100 millió aktív felhasználót tartalmaz. Ez a lépés jelentősen javítja a DALL-E 3 hozzáférhetőségét, és potenciálisan növelheti a népszerűségét.

Jelenleg, Midjourney és a Stable Diffusion dicsekedni körül 15 millió regisztrált felhasználó. Ezzel az integrációval azonban a DALL-E 3 tízszer nagyobb felhasználói bázishoz – 100 millió felhasználóhoz – fér hozzá. Ez teszi a ChatGPT Plusz előfizetés a terv annál vonzóbb, mivel elérhető áron kínál hozzáférést egy chatbothoz, elemző eszközökhöz és képgeneráláshoz.

Az integráció nemcsak a meglévő felhasználók számára előnyös, hanem az új felhasználók számára is erős mágnesként szolgál. Kibővíti a OpenAI az ökoszisztéma elérése és népszerűsége, bevonva azokat az egyéneket, akik mesterséges intelligencia által generált tartalommegoldásokat keresnek.

Ez a stratégiai lépés fellendülésre kész OpenAIbevételei és egyéb kulcsfontosságú mutatói. A vállalat befektetői valószínűleg kedvezően értékelik ezt a fejleményt, különösen a közelmúlt fényében 20%-os forgalomcsökkenés a nyár folyamán.

ChatGPT Az internetes forgalom 20%-kal esett vissza szeptemberben, és tovább csökken

További kapcsolódó témákról olvashat:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

További cikkek
Damir Jalalov
Damir Jalalov

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

Hot Stories
Csatlakozzon hírlevelünkhöz.
Legfrissebb hírek

A Ripple-től a The Big Green DAO-ig: Hogyan járulnak hozzá a kriptovaluta projektek a jótékonysághoz

Fedezze fel a digitális valutákban rejlő lehetőségeket jótékony célokra hasznosító kezdeményezéseket.

Tudjon meg többet

AlphaFold 3, Med-Gemini és mások: The Way AI Transforms Healthcare 2024

A mesterséges intelligencia különféle módokon nyilvánul meg az egészségügyben, az új genetikai összefüggések feltárásától a robotsebészeti rendszerek felhatalmazásáig...

Tudjon meg többet
Csatlakozzon innovatív technológiai közösségünkhöz
KATT ide
Tovább
Az 5ireChain ösztönzött „Testnet Thunder: GA” programot kezdeményez a hálózati stresszteszthez, és felkéri a felhasználókat, hogy vegyenek részt Airdrop Jutalmak
Tudósítást Technológia
Az 5ireChain ösztönzött „Testnet Thunder: GA” programot kezdeményez a hálózati stresszteszthez, és felkéri a felhasználókat, hogy vegyenek részt Airdrop Jutalmak
May 14, 2024
Támogatja a partnereket, hogy megkönnyítse a zökkenőmentes eszközkereskedelmet és -átutalásokat, elősegítve a Bitcoin bevezetését
üzleti Tudósítást Technológia
Támogatja a partnereket, hogy megkönnyítse a zökkenőmentes eszközkereskedelmet és -átutalásokat, elősegítve a Bitcoin bevezetését
May 14, 2024
3D Gamification és AI to Redefine az oktatási ipar 2024-ben: sokrétű alkalmazások, páratlan elkötelezettség és magával ragadó élmények
Oktatás Életmód szoftver Történetek és vélemények Technológia
3D Gamification és AI to Redefine az oktatási ipar 2024-ben: sokrétű alkalmazások, páratlan elkötelezettség és magával ragadó élmények 
May 14, 2024
Hogyan OpenAIA legújabb modell lebontja az akadályokat, integrálja a szöveget, a hangot és a vizuális bemeneteket a zökkenőmentes felhasználói élmény érdekében
Oktatás Életmód szoftver Történetek és vélemények Technológia
Hogyan OpenAIA legújabb modell lebontja az akadályokat, integrálja a szöveget, a hangot és a vizuális bemeneteket a zökkenőmentes felhasználói élmény érdekében
May 14, 2024
CRYPTOMERIA LABS PTE. KFT.