DALL-E 3 vabastamine võimendab OpenAI's mõju, lahkumine Midjourney ja Stable Diffusion Taga
Põgusalt
DALL-E 3 on seadistatud sellega sujuvalt integreerituks GPT-4, mis on spetsiaalselt kohandatud ChatGPT+ tellijad.
DALL-E 3 hoidub avaliku elu tegelaste kujutiste taasloomisest, kui nende nimed on sõnaselgelt mainitud.
DALL-E 3-le juurdepääsu ajaskaala on määratud oktoobriks.
OpenAI avalikustas oma uusima loomingu: DALL-E3. Erinevalt oma eelkäijatest keskendub DALL-E 3 pisiasjade täpsustamisele, käsitledes selliseid probleeme nagu kirjad ja keerukad kehadetailid, nagu sõrmed. Tulemus? Hulk esteetiliselt meeldivaid pilte, ilma et oleks vaja keerulisi juhiseid või lahendusi.
Oluline on märkida, et see väljalase ei sisalda terviklikku juurutamise üksikasjade, artiklite ega API-de komplekti. Selle asemel on DALL-E 3 seadistatud sellega sujuvalt integreerima GPT-4, mis on spetsiaalselt kohandatud ChatGPT+ tellijad.
See areng ei pruugi olla seismiline nihe AI maastikul, vaid pigem samm edasi mudelitevahelises koostöös. Paljud eeldavad, et järgmine Stable Diffusion mudel pakub veelgi suuremat keerukust ja kunstilist veetlust.
Kui panna see konteksti, OpenAITema teekond läbi tehisintellekti piltide loomise on olnud üsna pikk:
- 2021: DALL-E 1, 12 miljardi parameetri mudel, võeti kasutusele piiratud teabega.
- 2021: GLIDE, 2 miljardi parameetriga mudel, avalikustati koos avatud lähtekoodiga 300 miljoni parameetriga mudelitega.
- 2022: Saabus DALL-E 2, millel on 2 miljardit parameetrit, kaasas unCLIP paber ja API.
- 2023: DALL-E 3 on jõudnud turule ja kuigi üksikasjad võivad olla mõnevõrra salapärased, on üks asi selge – see integreerub GPT-4 eest ChatGPT+ tellijad.
Praeguse seisuga on DALL-E 3 visuaalid mõnevõrra napid. Puudub koodibaasi, ajaveebipostitus ega üksikasjalik võrdlus tipptasemel (SOTA) tehnoloogiaga. OpenAI näib, et nad hoiavad oma kaarte rinna lähedal.
Mudelit reklaamitakse nii, et tal on eelkäijatega võrreldes sügavam arusaam nüanssidest ja detailidest. See tähendab, et teie loominguliste ideede tõlkimine ülitäpsete piltidena on eeldatavasti sujuvam.
Üks DALL-E 3 intrigeeriv lubadus on selle integreerimine ChatGPT. See tähendab, et kasutajad ei pea maadlema keerukate viipade loomisega; lühikirjeldusest peaks piisama ChatGPT Teie nimel üksikasjalike viipade koostamine.
OpenAI on ka pikkades viipades rõhutanud konteksti tähtsust. DALL-E 3 on loodud paljusõnalisuse omaksvõtmiseks, muutes selle laiaulatuslikes viipades kirjeldatud kontekstiga paremini kooskõlas.
Kuid nagu iga uue tehisintellekti mudeli puhul, on selles ka tundmatu element. Kuigi esmased pilgud tunduvad paljutõotavad, tuleb tõeline lakmuspaber pikema kasutusega. Küsimused kerkivad selle tõhususe ja töökiiruse kohta.
On tõenäoline, et DALL-E 3 on mitmeastmeline difusiooniprotsess GPT-4 toimib teksti kodeerijana. Selle seadistuse keerukas mehaanika võib jääda saladuseks.
DALL-E 3-le juurdepääsu ajaskaala on määratud oktoobriks, esialgu aastaks ChatGPT Pluss ja ChatGPT Ettevõtte kasutajas, mis võimaldab teadlastel pärast seda laiemat juurdepääsu.
Nüansid ja tsensuur DALL-E 3-st
DALL-E 3 arendamise peamiseks fookuspunktiks oli selle võimete piiramise täpne protsess. See hõlmas ranget joondamist ja filtreid, mille eesmärk oli välistada teatud tüüpi sisu. Näiteks keeldub modell järjekindlalt kuulsate isiksuste kujutiste loomisest, tuntud kunstnike stiilis kunstiteoste kopeerimisest või mis tahes sisu loomisest, mida peetakse ohtlikuks. OpenAInõudlikud standardid. See strateegiline lähenemine ei seisne ainult piirangutes; see on ennetav meede, mille eesmärk on kaitsta ettevõtet võimalike juriidiliste segaduste eest.
Kuid peale nende filtrite ja joonduste tulevad päevavalgele mõned intrigeerivad tähelepanekud. DALL-E 3 näib olevat fotorealistliku sisu loomisel teatud nõrkus. Selle asemel, et toota pilte, mis jäljendavad veatult tõelisi fotosid, on väljundil eriline stiliseeritud kvaliteet. Nendest AI-ga tehtud piltidest õhkub peaaegu renderdatud ja kergelt plastilist välimust. Isegi kui sellele viidatakse sõnaselgelt sõna "foto", jääb tulemus oma iseloomulikus stilisatsioonis kinnistuma.
Väärib märkimist, et vaatamata nendele eripäradele pakub DALL-E 3 silmapaistvat potentsiaali. Selle loomingu hulgas on mõnel juhul silmatorkav sarnasus fotodega. Pidage meeles, et nende piltide simuleeritud realism ei pruugi olla kooskõlas sellega, kuidas sama objekti ehtne foto välja näeb, eriti kui see on vee all.
DALL-E 3 omadused ja üksikasjad
Sõelume pikslite vahel ja loeme ridade vahelt, et mõista, mida see uus mudel tõeliselt pakub.
Stiliseerimise kunst: Vaatab läbi OpenAIInstagrami konto, märkate arvukalt kunstiteoseid, mida iseloomustab peen stiliseerimine. Kuigi seal on muljetavaldav hulk abstraktseid kompositsioone ja kujundusi, näib, et mudel hoidub fotorealistliku sisu loomisest. Siin on rõhk esteetikal ja loovusel, mitte reaalsuse matkimisel.
Kunstilised piirangud: DALL-E 3 läheb eelkäijast erinevale teele. See keeldub kaljukindlalt loomast elavate kunstnike stiilis pilte, mis on tõsine kõrvalekalle DALL-E 2-st, mis võiks jäljendada teatud kunstnike stiile. See võib loomekogukonnas kulme kergitada, sarnaselt leige vastuvõtuga Stable Diffusion 2.0.
Kunstnike võimestamine: Kunstnike õiguste austamiseks, OpenAI võimaldab kunstnikel oma tööd tulevastest DALL-E versioonidest välja jätta. Esitades pildi, mille õigused neile kuuluvad, saavad kunstnikud taotleda selle väljajätmist modelli väljundist. Seejärel väldivad DALL-E edasised iteratsioonid sellise sisu loomist, mis sarnaneb kunstniku stiil.
Turvalisus ja tsensuur: OpenAIparanoia turvalisuse suhtes on käegakatsutav. Nad on teinud mudeli turvalisuse testimiseks koostööd väliste "punaste meeskondadega" ja kasutanud sisendklassifikaatoreid, et õpetada mudelit ignoreerima konkreetseid sõnu, mis võivad viia otsese või kahjuliku sisuni. DALL-E 3 hoidub kujutiste taasloomisest avaliku elu tegelased kui nende nimed on selgesõnaliselt mainitud. Kas kuulsused kuuluvad sellesse kategooriasse, on endiselt ebakindel, mis võib mõjutada loodud nägude kvaliteeti.
Vesimärgid ja jälgimine: seal on vihje siltide manustamisele, et jälgida "AI-ga loodud pilte", mis viitab liikumisele loodud sisu parema jälgimise ja potentsiaalselt vesimärgistamise suunas.
Tekst ja käed on täiustatud: OpenAI parandab teksti genereerimist ja käsitsi renderdamist, mis on konkurentide seas levinud väide. Tõeline proovikivi seisneb tegelikus väljundis väljaspool kirss-korjatud näiteid.
Ruumi mõistmine: DALL-E 3 paistab silma viipades kirjeldatud ruumisuhete mõistmisel. See suurendab mudeli võimet luua keerukaid nurki ja kompositsioone, kuigi kasutajad ootavad selle lubaduse kohta konkreetsemaid tõendeid.
Viipade jõud: Tuum DALL-E3 seisneb selle kiires võimekuses ja integratsioonis ChatGPT. See lubab kiire disaini automatiseerimist, kiirust ja lihtsustamist. Suundumus on siin suunas chatGPT viipade genereerimine, tõlkides ebamäärased ideed või algelised vihjed kõnekateks. DALL-E 3 täiustatud kontekstimõistmine muudab protsessi sujuvamaks, võimaldades kasutajatel keskenduda kavatsusele, mitte sõnasõnalisusele.
Kaardistamata territooriumid: Arutlusest puuduvad eriti sellised aspektid nagu värvimine, väljamaalimine, generatiivne täitmine ja 3D-modelleerimine. Nende funktsioonide puudumine võib olla piiranguks, eriti mitmekülgsemate mudelitega harjunud kasutajatele.
Juurdepääsu üksikasjad: DALL-E 3 on seadistatud muutuma kättesaadavaks ChatGPT Plus ja Enterprise klientidele oktoobri alguses. Küll aga spetsiifikast seoses ainepunktide eraldamisega ChatGPT Pluss kasutajad ja nendega seotud kulud jäävad ebaselgeks. Juurdepääs antakse API ja OpenAI Labsi platvorm "hiljem sügisel".
Integratsioonivõime: DALL-E integreeritakse sujuvalt partnerite ja Microsofti toodetesse. Saate olla tunnistajaks esitluste, illustratsioonide, kujunduste, logode loomisele, kõike seda kontekstis ja võimendatuna abiga ChatGPT. Sellest integratsioonist on kavas saada peavool, mis esitab märkimisväärse väljakutse konkurentidele nagu Google oma Bardiga ja Ideogramm.
LLM-i ja visuaalse sisu lähenemine: Kõige intrigeerivam aspekt seisneb suurte keelemudelite (LLM) ja visuaalse sisu genereerimise mudelite lähenemises. See tähistab üleminekut keerukalt kiirelt inseneritöölt ideede väljendamisele paremini kättesaadavas keeles. Tehisintellekt kogub nendest väljenditest konteksti ja ideid, pakkudes loomingulisi võimalusi, millele on raske vastu seista.
seotud: 50 parimat tekstist pildiks viipamist tehisintellekti kunstigeneraatoritele Midjourney ja DALL-E |
DALL-E 3: olge tehisintellekti kujutiste genereerimise uus liider
OpenAIotsus integreerida DALL-E 3 ChatGPT ökosüsteem on strateegiline samm. See integratsioon annab DALL-E 3-le juurdepääsu tohutule 100 miljoni aktiivse kasutaja andmebaasile. See samm suurendab märkimisväärselt DALL-E 3 juurdepääsetavust ja võib selle populaarsust suurendada.
Praegu Midjourney ja Stable Diffusion uhkustada ümberringi 15 miljonit registreeritud kasutajat. Kuid selle integratsiooniga on DALL-E 3 seadistatud pääsema ligi kümme korda suuremale kasutajaskonnale – 100 miljonile kasutajale. See muudab ChatGPT Pluss tellimus plaan on veelgi ahvatlevam, kuna see pakub juurdepääsu vestlusbotile, analüüsitööriistadele ja piltide genereerimisele – seda kõike taskukohase hinnaga.
Integratsioon ei ole kasulik mitte ainult olemasolevatele kasutajatele, vaid toimib ka võimsa magnetina uutele kasutajatele. See laiendab OpenAI ökosüsteemi haaret ja populaarsust, tõmmates ligi inimesi, kes otsivad tehisintellekti loodud sisulahendusi.
See strateegiline samm on valmis hoogustama OpenAItulud ja muud olulised mõõdikud. Ettevõtte investorid suhtuvad sellesse arengusse tõenäoliselt positiivselt, eriti hiljutist silmas pidades 20% liiklusmahu langus suve jooksul.
Loe rohkem seotud teemasid:
Kaebused
Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.
Umbes Autor
Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks.
Veel artikleidDamir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks.