Novinky Technika
Září 21, 2023

DALL-E 3 Release Zesiluje OpenAI's vliv, odchod Midjourney a Stable Diffusion Za

Stručně

DALL-E 3 je nastaven tak, aby byl hladce integrován GPT-4, speciálně přizpůsobené pro ChatGPT+ předplatitelé.

DALL-E 3 se zdržuje znovuvytváření obrázků veřejných osob, pokud jsou výslovně uvedena jejich jména.

Časová osa pro přístup k DALL-E 3 je stanovena na říjen.

OpenAI představila svůj nejnovější výtvor: DALL-E3. Na rozdíl od svých předchůdců se DALL-E 3 zaměřuje na rafinaci detailů, řeší problémy, jako jsou nápisy a složité detaily těla, jako jsou prsty. Výsledek? Řada esteticky příjemných obrázků bez nutnosti složitých výzev nebo řešení.

DALL-E 3 Release Zesiluje OpenAI's vliv, odchod Midjourney  a  Stable Diffusion Za

Je důležité poznamenat, že toto vydání nepřichází s komplexní sadou implementačních podrobností, článků nebo rozhraní API. Místo toho je DALL-E 3 nastaven na bezproblémovou integraci GPT-4, speciálně přizpůsobené pro ChatGPT+ předplatitelé.

Tento vývoj nemusí být seismickým posunem v prostředí umělé inteligence, ale spíše krokem vpřed ve spolupráci mezi modely. Mnozí očekávají, že příště Stable Diffusion model nabídne ještě větší sofistikovanost a uměleckou přitažlivost.

Abych to uvedl do kontextu, OpenAICesta generováním obrázků AI byla docela jízda:

  • 2021: DALL-E 1, model s 12 miliardami parametrů, byl představen s omezenými informacemi.
  • 2021: GLIDE, model s 2 miliardami parametrů, byl odhalen spolu s open source modely s 300 miliony parametrů.
  • 2022: Přišel DALL-E 2 s 2 miliardami parametrů, doplněný o unCLIP papír a API.
  • 2023: DALL-E 3 vstoupil do hry, a přestože mohou být detaily poněkud záhadné, jedna věc je jasná – bude se integrovat s GPT-4 for ChatGPT+ předplatitelé.

Od této chvíle zůstává vizuální podoba DALL-E 3 poněkud vzácná. Neexistuje žádná kódová základna, blogový příspěvek ani podrobné srovnání s nejmodernější (SOTA). OpenAI Zdá se, že drží své karty blízko hrudi.

DALL-E 3 Release Zesiluje OpenAI's vliv, odchod Midjourney  a  Stable Diffusion Za

Model je nabízen tak, aby měl ve srovnání se svými předchůdci hlubší pochopení nuancí a detailů. To znamená, že převod vašich kreativních konceptů do vysoce přesných obrázků bude pravděpodobně plynulejší.

Jedním ze zajímavých příslibů DALL-E 3 je jeho integrace s ChatGPT. To znamená, že uživatelé se nebudou muset potýkat s vytvářením složitých výzev; měl by stačit stručný popis, s ChatGPT vhodně generovat podrobné výzvy vaším jménem.

OpenAI také zdůraznil význam kontextu v dlouhých výzvách. DALL-E 3 je navržen tak, aby zahrnoval upovídanost, díky čemuž je lépe přizpůsoben kontextu popsanému v rozsáhlých výzvách.

Přesto, stejně jako u každého nového modelu umělé inteligence, je zde prvek neznáma. Zatímco první záblesky vypadají slibně, skutečný lakmusový papírek přijde s delším používáním. Přetrvávají otázky ohledně jeho účinnosti a rychlosti provozu.

Je pravděpodobné, že DALL-E 3 bude vícestupňový proces šíření, s GPT-4 slouží jako kodér textu. Složitá mechanika tohoto nastavení může zůstat zahalena rouškou tajemství.

Časová osa pro přístup k DALL-E 3 je nastavena na říjen, původně na ChatGPT Plus a ChatGPT Podnikový uživatels, s možností širšího přístupu pro výzkumné pracovníky poté.

PODOBNÉ ČLÁNKY: OpenAIAltman v americkém Senátu, aby diskutoval o rizicích umělé inteligence

Nuance a Cenzura z DALL-E 3

Primárním ústředním bodem vývoje DALL-E 3 byl pečlivý proces omezování jeho schopností. To zahrnovalo přísné zarovnání a filtry navržené k vyloučení konkrétních typů obsahu. Modelka například důrazně odmítá generovat obrázky slavných osobností, replikovat umělecká díla ve stylu renomovaných umělců nebo vytvářet jakýkoli obsah, který považuje za nebezpečný. OpenAInáročné standardy. Tento strategický přístup není jen o omezeních; je to proaktivní opatření zaměřené na ochranu společnosti před potenciálními právními spleti.

Kromě těchto filtrů a zarovnání však vycházejí najevo některá zajímavá pozorování. Zdá se, že DALL-E 3 vykazuje určitou slabost, pokud jde o generování fotorealistického obsahu. Namísto vytváření obrázků, které bezchybně napodobují skutečné fotografie, má výstup výraznou stylizovanou kvalitu. Tyto obrázky vytvořené umělou inteligencí vyzařují téměř vykreslený a mírně plastický vzhled. I při výslovné výzvě slovem „fotografie“ zůstává výsledek zakořeněn ve své charakteristické stylizaci.

Výzva č. 1
Výzva č. 1: Detailní fotografie kraba poustevníka usazeného ve vlhkém písku s mořskou pěnou poblíž a zvýrazněnými detaily jeho krunýře a textury písku.
Výzva č. 2
Výzva č. 2: Živě žlutá pohovka ve tvaru banánu sedí v útulném obývacím pokoji a jeho křivka kolébá na hromadě barevných polštářů. na dřevěné podlaze dodává vzorovaný koberec dotek eklektického kouzla a v rohu stojí rostlina v květináči, která sahá ke slunečnímu světlu procházejícímu oknem.
Výzva č. 3
Výzva č. 3: Fotografie starověkého vraku uhnízděného na dně oceánu. Mořské rostliny si nárokovaly dřevěnou konstrukci a ryby plavou dovnitř a ven z jejích dutých prostor. Kolem jsou rozesety potopené poklady a stará děla, které poskytují pohled do minulosti.

Stojí za zmínku, že navzdory těmto zvláštnostem nabízí DALL-E 3 záblesk pozoruhodného potenciálu. Mezi jeho výtvory některé případy vykazují nápadnou podobnost s fotografiemi. Mějte na paměti, že simulovaný realismus těchto snímků nemusí nutně odpovídat tomu, jak by vypadala skutečná fotografie stejného předmětu, zvláště pokud je ponořena pod vodou.

PODOBNÉ ČLÁNKY: Microsoft představil Designer, první profesionální nástroj pro převod textu na obrázek založený na DALL-E 2

DALL-E 3 Vlastnosti a podrobnosti

Pojďme se na chvíli prokousat pixely a číst mezi řádky, abychom pochopili, co tento nový model skutečně nabízí.

Umění stylizace: Pohled skrz OpenAIinstagramový účet uživatele, všimnete si množství uměleckých děl vyznačujících se vynikající stylizací. I když je zde působivá řada abstraktních kompozic a návrhů, zdá se, že model se vyhýbá vytváření fotorealistického obsahu. Důraz je zde kladen na estetiku a kreativitu, nikoli na napodobování reality.

Umělecká omezení: DALL-E 3 jde jinou cestou než jeho předchůdce. Tvrdě odmítá vytvářet obrazy ve stylu žijících umělců, což je výrazný odklon od DALL-E 2, který by mohl napodobovat styly některých umělců. To by mohlo zvednout obočí v kreativní komunitě, podobně jako vlažné přijetí Stable Diffusion 2.0.

Posílení umělců: Ve snaze respektovat práva umělců, OpenAI umožňuje umělcům vyloučit jejich práci z budoucích verzí DALL-E. Odesláním obrázku, ke kterému vlastní práva, mohou umělci požádat o jeho vyloučení z výstupu modelu. Budoucí iterace DALL-E se pak vyhnou generování obsahu připomínajícího styl umělce.

Bezpečnost a cenzura: OpenAIParanoia ohledně bezpečnosti je hmatatelná. Spolupracovali s externími „červenými týmy“ na testování bezpečnosti modelu a použili vstupní klasifikátory, aby naučili model ignorovat konkrétní slova, která by mohla vést k explicitnímu nebo škodlivému obsahu. DALL-E 3 se zdržuje opětovného vytváření obrázků veřejné osobnosti když jsou jejich jména výslovně uvedena. Zda celebrity spadají do této kategorie, zůstává nejisté, což může mít dopad na kvalitu generovaných tváří.

Vodoznaky a sledování: Existuje náznak vkládání značek pro sledování „obrázků generovaných umělou inteligencí“, což naznačuje posun směrem k lepšímu monitorování a potenciálně vodoznaku generovaného obsahu.

Text a ruce vylepšeny: OpenAI propaguje vylepšené generování textu a ruční vykreslování, což je mezi konkurenty běžné tvrzení. Skutečný test spočívá ve skutečném výstupu nad rámec vybraných příkladů.

Prostorové porozumění: DALL-E 3 vyniká v porozumění prostorovým vztahům popsaným ve výzvách. To zlepšuje schopnost modelu konstruovat složité úhly a kompozice, ačkoli uživatelé čekají na konkrétnější důkazy tohoto slibu.

Síla výzev: Jádro DALL-E3 spočívá v jeho rychlých schopnostech a integraci s ChatGPT. Slibuje automatizaci, rychlost a zjednodušení rychlého návrhu. Trend zde směřuje k chatGPT generování výzev, překládání nejasných myšlenek nebo základních podnětů do výmluvných. Vylepšené kontextové porozumění DALL-E 3 zjednodušuje proces a umožňuje uživatelům soustředit se na záměr před upovídaností.

Nezmapovaná území: V diskuzi výrazně chybí aspekty jako malba, překreslování, generativní výplň a 3D modelování. Absence těchto funkcí by mohla být omezením zejména pro uživatele zvyklé na univerzálnější modely.

Podrobnosti přístupu: DALL-E 3 je nastaven tak, aby byl dostupný pro ChatGPT Zákazníci Plus a Enterprise začátkem října. Nicméně specifika ohledně přidělování kreditů za ChatGPT Plus uživatelé a související náklady zůstávají nejasné. Přístup bude poskytován prostřednictvím API a OpenAI Platforma Labs „později na podzim“.

Schopnost integrace: DALL-E má být hladce integrován do partnerských a Microsoft produktů. Očekávejte, že budete svědky vytváření prezentací, ilustrací, návrhů, log, vše v kontextu a zesílené s pomocí ChatGPT. Tato integrace se má stát hlavním proudem a představuje významnou výzvu pro konkurenty, jako jsou Google se svým Bardem a Ideogram.

Konvergence LLM a vizuálního obsahu: Nejzajímavější aspekt spočívá v konvergenci velkých jazykových modelů (LLM) a modelů generování vizuálního obsahu. Znamená to posun od složitého rychlého inženýrství k vyjadřování myšlenek v přístupnějším jazyce. Umělá inteligence z těchto výrazů získá kontext a nápady a nabídne kreativní možnosti, kterým je těžké odolat.

PODOBNÉ ČLÁNKY: 50 nejlepších výzev pro převod textu na obrázek pro generátory umění AI Midjourney a DALL-E

DALL-E 3: Staňte se novým lídrem v generování AI obrázků

OpenAIrozhodnutí integrovat DALL-E 3 do ChatGPT ekosystém je strategický tah. Tato integrace poskytuje DALL-E 3 přístup k rozsáhlé uživatelské databázi 100 milionů aktivních uživatelů. Tento krok výrazně zlepšuje dostupnost DALL-E 3 a má potenciál katapultovat jeho popularitu.

V současné době, Midjourney a Stable Diffusion chlubit se kolem sebe 15 milion registrovaných uživatelů. Díky této integraci je však DALL-E 3 nastaven tak, aby získal přístup k desetkrát větší uživatelské základně – 100 milionům uživatelů. Toto dělá ChatGPT Plus předplatné plán je o to přitažlivější, protože nabízí přístup k chatbotu, analytickým nástrojům a generování obrázků, to vše za dostupnou cenu.

Integrace je výhodná nejen pro stávající uživatele, ale slouží také jako silný magnet pro nové uživatele. Rozšiřuje to OpenAI dosah a popularita ekosystému, která přitahuje jednotlivce, kteří hledají řešení obsahu generovaného umělou inteligencí.

Tento strategický krok je připraven na podporu OpenAItržby a další klíčové metriky. Investoři společnosti budou tento vývoj pravděpodobně vnímat příznivě, zejména ve světle nedávné doby 20% pokles objemu dopravy během léta.

ChatGPT Provoz na webu v září klesl o 20 % a nadále klesá

Přečtěte si další související témata:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Institucionální apetit roste směrem k bitcoinovým ETF uprostřed volatility

Zveřejnění prostřednictvím podání 13F odhaluje, že pozoruhodní institucionální investoři fušují do bitcoinových ETF, což podtrhuje rostoucí akceptaci...

Vědět více

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
zkSync představí P256Verify, Bridgehub a Valdiums podporují vylepšené funkce v příštím upgradu
Novinky Technika
zkSync představí P256Verify, Bridgehub a Valdiums podporují vylepšené funkce v příštím upgradu
8
LD Capital, Antalpha Ventures a Highblock Limited spojily své síly a spustily likvidní fond Hong Kong ETF v hodnotě 128 milionů USD
Business Trhy Novinky
LD Capital, Antalpha Ventures a Highblock Limited spojily své síly a spustily likvidní fond Hong Kong ETF v hodnotě 128 milionů USD
8
Uvnitř Wall Street Memes (WSM): Odhalení titulků
Business Trhy Příběhy a recenze Technika
Uvnitř Wall Street Memes (WSM): Odhalení titulků
7
Objevte Crypto Whales: Kdo je kdo na trhu
Business Trhy Příběhy a recenze Technika
Objevte Crypto Whales: Kdo je kdo na trhu
7
CRYPTOMERIA LABS PTE. LTD.