Naujienų ataskaita Technologija
Rugsėjis 21, 2023

DALL-E 3 Release sustiprina OpenAI's įtaka, išėjimas Midjourney ir Stable Diffusion Už

Trumpai

DALL-E 3 yra nustatytas taip, kad būtų sklandžiai integruotas su GPT-4, specialiai pritaikytas ChatGPT+ prenumeratoriai.

DALL-E 3 susilaiko nuo viešų asmenų vaizdų atkūrimo, kai jų vardai yra aiškiai minimi.

Prieigos prie DALL-E 3 laikas nustatytas spalio mėn.

OpenAI pristatė naujausią savo kūrinį: DALL-E3. Skirtingai nei jo pirmtakai, DALL-E 3 daugiausia dėmesio skiria smulkmenoms, sprendžiant tokias problemas kaip raidės ir sudėtingos kūno detalės, pvz., pirštai. Rezultatas? Estetiškai patrauklių vaizdų masyvas be sudėtingų raginimų ar sprendimų.

DALL-E 3 Release sustiprina OpenAI's įtaka, išėjimas Midjourney ir Stable Diffusion Už

Svarbu pažymėti, kad šiame leidime nėra išsamaus diegimo informacijos, straipsnių ar API rinkinio. Vietoj to, DALL-E 3 turi būti sklandžiai integruotas GPT-4, specialiai pritaikytas ChatGPT+ prenumeratoriai.

Šis vystymasis gali būti ne seisminis AI kraštovaizdžio pokytis, o greičiau žingsnis į priekį bendradarbiaujant tarp modelių. Daugelis tikisi, kad kitą Stable Diffusion modelis pasiūlys dar didesnį rafinuotumą ir meninį patrauklumą.

Norėdami įdėti jį į kontekstą, OpenAIKelionė per AI vaizdų generavimą buvo nemaža kelionė:

  • 2021: DALL-E 1, 12 milijardų parametrų modelis, buvo pristatytas su ribota informacija.
  • 2021: GLIDE, 2 milijardų parametrų modelis, buvo pristatytas kartu su atvirojo kodo 300 milijonų parametrų modeliais.
  • 2022: Atvyko DALL-E 2, turintis 2 milijardus parametrų, kartu su unCLIP popieriumi ir API.
  • 2023: DALL-E 3 pasirodė, ir nors detalės gali būti šiek tiek paslaptingos, viena aišku – ji bus integruota su GPT-4 forumas ChatGPT+ prenumeratoriai.

Šiuo metu DALL-E 3 vaizdų išlieka šiek tiek menka. Nėra kodų bazės, tinklaraščio įrašo ar išsamaus palyginimo su naujausiais įrenginiais (SOTA). OpenAI atrodo, kad kortas laiko prie krūtinės.

DALL-E 3 Release sustiprina OpenAI's įtaka, išėjimas Midjourney ir Stable Diffusion Už

Skelbiama, kad modelis turi gilesnį niuansų ir detalių supratimą, palyginti su jo pirmtakais. Tai reiškia, kad kūrybinių idėjų pavertimas labai tiksliais vaizdais turėtų būti sklandesnis procesas.

Vienas intriguojančių DALL-E 3 pažadų yra jo integracija su ChatGPT. Tai reiškia, kad vartotojams nereikės grumtis su sudėtingais raginimais; turėtų pakakti trumpo aprašymo, su ChatGPT tinkamai generuoja išsamius raginimus jūsų vardu.

OpenAI taip pat pabrėžė konteksto svarbą ilguose raginimuose. DALL-E 3 sukurtas taip, kad apimtų daugiažodiškumą, todėl jis labiau prisitaiko prie konteksto, aprašyto plačiuose raginimuose.

Tačiau, kaip ir bet kuriame naujame AI modelyje, yra nežinomybės elementas. Nors pirmieji žvilgsniai atrodo daug žadantys, tikras lakmuso popierėlis bus naudojamas ilgai. Kyla klausimų dėl jo efektyvumo ir veikimo greičio.

Tikėtina, kad DALL-E 3 bus daugiapakopis difuzijos procesas GPT-4 tarnauja kaip teksto kodavimo priemonė. Sudėtinga šios sąrankos mechanika gali likti paslaptyje.

Prieigos prie DALL-E 3 laikas nustatytas spalio mėn., iš pradžių – iki ChatGPT Plius ir ChatGPT Įmonės vartotojass, su galimybe vėliau tyrėjams turėti platesnę prieigą.

Susijęs: OpenAIAltmanas JAV Senate aptars AI riziką

Niuansai ir cenzūra iš DALL-E 3

Pagrindinis DALL-E 3 kūrimo židinys buvo kruopštus jo galimybių pažabojimas. Tai apėmė griežtą suderinimą ir filtrus, skirtus tam, kad būtų pašalintas tam tikrų tipų turinys. Pavyzdžiui, modelis kategoriškai atsisako kurti garsių asmenybių atvaizdus, ​​atkartoti meno kūrinius garsių menininkų stiliumi arba kurti bet kokį turinį, kurį laiko nesaugiu. OpenAIišrankūs standartai. Šis strateginis požiūris nėra susijęs tik su apribojimais; tai iniciatyvi priemonė, kuria siekiama apsaugoti įmonę nuo galimų teisinių kliūčių.

Tačiau be šių filtrų ir derinimų išryškėja keletas intriguojančių pastebėjimų. Atrodo, kad DALL-E 3 turi tam tikrą silpnumą, kai reikia sukurti fotorealistišką turinį. Užuot gaminę vaizdus, ​​kurie nepriekaištingai imituoja tikras nuotraukas, išvestis pasižymi išskirtine stilizuota kokybe. Šios AI sukurtos nuotraukos išsiskiria beveik perteikta ir šiek tiek plastiška išvaizda. Net ir aiškiai paragintas žodis „fotografuoti“, rezultatas išlieka jam būdingoje stilizacijoje.

Raginimas Nr. 1
1 raginimas: šlapiame smėlyje įsitaisiusio krabo atsiskyrėlio nuotrauka iš arti su jūros putomis, paryškintomis jo kiauto detalėmis ir smėlio tekstūra.
Raginimas Nr. 2
2 raginimas: ryškiai geltona banano formos sofa sėdi jaukioje svetainėje, jos kreivė slepia krūvą spalvingų pagalvėlių. ant medinių grindų raštuotas kilimėlis suteikia eklektiško žavesio, o kampe sėdi vazoninis augalas, siekiantis pro langą besiskverbiančios saulės šviesos.
Raginimas Nr. 3
3 raginimas: vandenyno dugne stūksančio senovinio laivo nuolaužos nuotrauka. Jūrų augalai pareikalavo medinės konstrukcijos, o žuvys plaukia į tuščiavidurius tarpus ir iš jų. Paskendę lobiai ir seni pabūklai yra išsibarstę aplinkui, todėl galima pažvelgti į praeitį.

Verta paminėti, kad nepaisant šių ypatumų, DALL-E 3 suteikia nepaprasto potencialo žvilgsnį. Tarp jo kūrinių kai kurie atvejai labai primena nuotraukas. Turėkite omenyje, kad šių vaizdų imituotas tikroviškumas nebūtinai sutampa su tuo, kaip atrodytų tikroji to paties objekto nuotrauka, ypač panardinus po vandeniu.

Susijęs: „Microsoft“ pristatė „Designer“ – pirmąjį profesionalų teksto į vaizdą įrankį, pagrįstą DALL-E 2

DALL-E 3 funkcijos ir detalės

Skirkime šiek tiek laiko, kad peržiūrėtume pikselius ir skaitytume tarp eilučių, kad suprastume, ką iš tikrųjų siūlo šis naujas modelis.

Stilizavimo menas: Žvilgteliu kiaurai OpenAIInstagram paskyroje, pastebėsite daugybę meno kūrinių, pasižyminčių išskirtine stilizacija. Nors yra įspūdinga abstrakčių kompozicijų ir dizaino įvairovė, atrodo, kad modelis vengia kurti fotorealistinio turinio. Čia akcentuojama estetika ir kūrybiškumas, o ne tikrovės mėgdžiojimas.

Meniniai apribojimai: DALL-E 3 eina kitu keliu nei jo pirmtakas. Ji griežtai atsisako kurti vaizdus pagal gyvų menininkų stilių, o tai labai skiriasi nuo DALL-E 2, kuris galėtų imituoti tam tikrus menininkų stilius. Tai gali pakelti antakius kūrybinėje bendruomenėje, panašiai kaip drungnas priėmimas Stable Diffusion 2.0.

Menininkų įgalinimas: siekdami gerbti menininkų teises, OpenAI leidžia menininkams neįtraukti savo darbų iš būsimų DALL-E versijų. Pateikdami vaizdą, į kurį jiems priklauso teisės, menininkai gali prašyti jo neįtraukti į modelio produkciją. Ateities DALL-E iteracijos neleis generuoti turinio, panašaus į menininko stilius.

Saugumas ir cenzūra: OpenAIapčiuopiama paranoja dėl saugumo. Jie bendradarbiavo su išorinėmis „raudonosiomis komandomis“, kad išbandytų modelio saugumą, ir naudojo įvesties klasifikatorius, kad išmokytų modelį ignoruoti konkrečius žodžius, kurie gali sukelti aiškų ar žalingą turinį. DALL-E 3 susilaiko nuo vaizdų atkūrimo visuomenės veikėjai kai aiškiai minimi jų vardai. Ar įžymybės patenka į šią kategoriją, lieka neaišku, o tai gali turėti įtakos sukurtų veidų kokybei.

Vandens ženklai ir sekimas: yra užuomina apie žymų įterpimą, kad būtų galima sekti „AI sugeneruotus vaizdus“, o tai rodo, kad reikia geriau stebėti ir potencialiai pažymėti sugeneruotą turinį.

Tekstas ir rankos patobulintos: OpenAI patobulino teksto generavimą ir atvaizdavimą ranka – tai įprastas konkurentų teiginys. Tikrasis išbandymas slypi tikrojoje produkcijoje, o ne tik pavyzdžiuose.

Erdvinis suvokimas: DALL-E 3 puikiai supranta raginimuose aprašytus erdvinius ryšius. Tai padidina modelio galimybes kurti sudėtingus kampus ir kompozicijas, nors vartotojai laukia konkretesnių šio pažado įrodymų.

Raginimų galia: esmė DALL-E3 slypi jo greitose galimybėse ir integracijoje su ChatGPT. Tai žada automatizavimą, greitį ir greito dizaino supaprastinimą. Tendencija čia link chatGPT raginimų generavimas, paverčiant neaiškias idėjas ar elementarius raginimus iškalbingais. Patobulintas DALL-E 3 konteksto supratimas supaprastina procesą, todėl vartotojai gali sutelkti dėmesį į ketinimus, o ne į daugžodžius.

Neatpažintos teritorijos: Diskusijoje ypač trūksta tokių aspektų kaip dažymas, perdažymas, generatyvus užpildymas ir 3D modeliavimas. Šių funkcijų nebuvimas gali būti apribojimas, ypač naudotojams, pripratusiems prie universalesnių modelių.

Išsami prieigos informacija: nustatyta, kad DALL-E 3 taps pasiekiamas ChatGPT „Plus“ ir „Enterprise“ klientai spalio pradžioje. Tačiau specifika dėl kreditų skyrimo už ChatGPT Be to, vartotojai ir susijusios išlaidos lieka neaiškios. Prieiga bus suteikta per API ir OpenAI Labs platforma „vėliau rudenį“.

Integracijos meistriškumas: DALL-E turi būti sklandžiai integruotas į partnerių ir Microsoft produktus. Tikimasi, kad bus kuriami pristatymai, iliustracijos, dizainai, logotipai – viskas kontekste ir sustiprinta padedant iš ChatGPT. Ši integracija taps įprasta, sukeldama didelį iššūkį tokiems konkurentams kaip Google su savo bardu ir Ideograma.

LLM ir vaizdinio turinio konvergencija: Labiausiai intriguojantis aspektas yra didelių kalbų modelių (LLM) ir vaizdinio turinio generavimo modelių konvergencija. Tai reiškia perėjimą nuo sudėtingos operatyvios inžinerijos prie idėjų reiškimo prieinamesne kalba. Dirbtinis intelektas iš šių išraiškų rinks kontekstą ir idėjas, siūlydamas kūrybines galimybes, kurioms sunku atsispirti.

Susijęs: 50 geriausių teksto į vaizdą raginimų dirbtinio intelekto meno generatoriams Midjourney ir DALL-E

DALL-E 3: tapkite nauju AI vaizdo generavimo lyderiu

OpenAIsprendimas integruoti DALL-E 3 į ChatGPT ekosistema yra strateginis žingsnis. Ši integracija suteikia DALL-E 3 prieigą prie didžiulės 100 milijonų aktyvių vartotojų duomenų bazės. Šis žingsnis žymiai padidina DALL-E 3 prieinamumą ir gali padidinti jo populiarumą.

Šiuo metu Midjourney ir Stable Diffusion girtis aplinkui 15 milijonai registruoti vartotojai. Tačiau naudojant šią integraciją, DALL-E 3 turi prieigą prie dešimt kartų didesnės vartotojų bazės – 100 milijonų vartotojų. Tai daro ChatGPT Plius prenumerata planas yra dar patrauklesnis, nes siūlo prieigą prie pokalbių roboto, analizės įrankių ir vaizdo generavimo už prieinamą kainą.

Integracija yra naudinga ne tik esamiems vartotojams, bet ir yra galingas magnetas naujiems vartotojams. Jis išplečia OpenAI ekosistemos pasiekiamumą ir populiarumą, pritraukiančius asmenis, ieškančius AI sukurto turinio sprendimų.

Šis strateginis žingsnis yra pasirengęs paskatinti OpenAIpajamas ir kitus pagrindinius rodiklius. Bendrovės investuotojai greičiausiai vertins šią plėtrą palankiai, ypač atsižvelgiant į neseniai įvykusias aplinkybes 20% sumažės eismo intensyvumas vasaros metu.

ChatGPT Interneto srautas rugsėjo mėn. sumažėja 20 % ir toliau mažėja

Skaityti daugiau susijusių temų:

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Daugiau straipsnių
Damiras Jalalovas
Damiras Jalalovas

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Hot Stories
Prisijunkite prie mūsų naujienlaiškio.
Paskutinės naujienos

Nuo Ripple iki Big Green DAO: kaip kriptovaliutų projektai prisideda prie labdaros

Išnagrinėkime iniciatyvas, kurios panaudoja skaitmeninių valiutų potencialą labdaros tikslais.

Žinoti daugiau

„AlphaFold 3“, „Med-Gemini“ ir kiti: „The Way AI Transforms Healthcare 2024“

DI pasireiškia įvairiais būdais sveikatos priežiūros srityje: nuo naujų genetinių koreliacijų atskleidimo iki robotų chirurginių sistemų įgalinimo...

Žinoti daugiau
Prisijunkite prie mūsų naujoviškų technologijų bendruomenės
Skaityti daugiau
Skaityti daugiau
„5ireChain“ inicijuoja skatinamą „Testnet Thunder: GA“ tinklo nepalankiausio poveikio testavimui, kviečia vartotojus dalyvauti Airdrop Apdovanojimai
Naujienų ataskaita Technologija
„5ireChain“ inicijuoja skatinamą „Testnet Thunder: GA“ tinklo nepalankiausio poveikio testavimui, kviečia vartotojus dalyvauti Airdrop Apdovanojimai
Gali 14, 2024
Sujungia partnerius, kad palengvintų sklandžią prekybą turtu ir pervedimus, skatindamas Bitcoin priėmimą
Atsakingas verslas Naujienų ataskaita Technologija
Sujungia partnerius, kad palengvintų sklandžią prekybą turtu ir pervedimus, skatindamas Bitcoin priėmimą
Gali 14, 2024
3D Gamification ir AI į Redefine švietimo pramonė 2024 m.: įvairios programos, neprilygstamas įtraukimas ir įtraukianti patirtis
Išsilavinimas Gyvenimo būdas programinė įranga Istorijos ir apžvalgos Technologija
3D Gamification ir AI į Redefine švietimo pramonė 2024 m.: įvairios programos, neprilygstamas įtraukimas ir įtraukianti patirtis 
Gali 14, 2024
Kaip OpenAINaujausias modelis pašalina kliūtis, integruodamas teksto, garso ir vaizdo įvestis, kad sukurtų vientisą vartotojo patirtį
Išsilavinimas Gyvenimo būdas programinė įranga Istorijos ir apžvalgos Technologija
Kaip OpenAINaujausias modelis pašalina kliūtis, integruodamas teksto, garso ir vaizdo įvestis, kad sukurtų vientisą vartotojo patirtį
Gali 14, 2024
CRYPTOMERIA LABS PTE. LTD.