Септембар 21, 2023

ДАЛЛ-Е 3 Релеасе Амплифиес OpenAI'с Инфлуенце, Леавинг Midjourney Stable Diffusion Иза

by Дамир Иалалов

Објављено: 21. септембра 2023. у 4:29 Ажурирано: 22. марта 2024. у 11:17

by Данил Мјакин

Измењено и проверено: 21. септембар 2023. у 4:29

Укратко

ДАЛЛ-Е 3 је постављен тако да буде неприметно интегрисан са GPT-4, посебно скројен за ChatGPT+ претплатници.

ДАЛЛ-Е 3 се уздржава од поновног креирања слика јавних личности када се њихова имена експлицитно помињу.

Временски оквир за приступ ДАЛЛ-Е 3 је постављен за октобар.

OpenAI је представио своју најновију креацију: ДАЛЛ-Е3. За разлику од својих претходника, ДАЛЛ-Е 3 се фокусира на пречишћавање детаља, решавање проблема као што су слова и замршени детаљи тела, као што су прсти. Резултат? Низ естетски пријатних слика без потребе за сложеним упутствима или заобилазним решењима.

ДАЛЛ-Е 3 Релеасе Амплифиес OpenAI'с Инфлуенце, Леавинг Midjourney Stable Diffusion Иза

Важно је напоменути да ово издање не долази са свеобухватним скупом детаља имплементације, чланака или АПИ-ја. Уместо тога, ДАЛЛ-Е 3 је подешен да буде неприметно интегрисан GPT-4, посебно скројен за ChatGPT+ претплатници.

Овај развој можда није сеизмичка промена у АИ пејзажу, већ корак напред у сарадњи између модела. Многи предвиђају да ће следеће Stable Diffusion модел понудиће још већу софистицираност и уметничку привлачност.

Да то ставим у контекст, OpenAIПутовање корисника кроз генерисање АИ слика било је прилично забавно:

КСНУМКС: ДАЛЛ-Е 1, модел параметара од 12 милијарди, представљен је са ограниченим информацијама.
КСНУМКС: ГЛИДЕ, модел параметара од 2 милијарде, представљен је заједно са моделима са 300 милиона параметара отвореног кода.
КСНУМКС: Стигао је ДАЛЛ-Е 2, са 2 милијарде параметара, у пратњи унЦЛИП папира и АПИ-ја.
КСНУМКС: ДАЛЛ-Е 3 је направио свој улазак, и иако детаљи могу бити помало загонетни, једно је јасно — он ће се интегрисати са GPT-4 за ChatGPT+ претплатници.

За сада, визуелни прикази ДАЛЛ-Е 3 остају донекле оскудни. Не постоји база кодова, пост на блогу или детаљно поређење са најсавременијим (СОТА). OpenAI изгледа да своје карте држе близу груди.

Модел се проглашава да поседује дубље разумевање нијанси и детаља у поређењу са својим претходницима. То значи да се очекује да ће превођење ваших креативних концепата у високо прецизне слике бити лакши процес.

Једно интригантно обећање ДАЛЛ-Е 3 је његова интеграција са ChatGPT. Ово имплицира да корисници неће морати да се боре са прављењем замршених упита; кратак опис би требао бити довољан, са ChatGPT вешто генерисање детаљних упита у ваше име.

OpenAI такође је нагласио важност контекста у дугим упитима. ДАЛЛ-Е 3 је дизајниран да прихвати опширност, чинећи га прилагођенијим контексту описаном у опсежним упутствима.

Ипак, као и код сваког новог АИ модела, постоји елемент непознатог. Иако почетни погледи изгледају обећавајуће, прави лакмус тест ће доћи уз продужену употребу. Остају питања о његовој ефикасности и брзини рада.

Вероватно је да ће ДАЛЛ-Е 3 бити вишестепени процес дифузије, са GPT-4 служи као кодер текста. Замршена механика ове поставке може остати обавијена велом тајне.

Временски оквир за приступ ДАЛЛ-Е 3 је постављен за октобар, у почетку за ChatGPT Плус и ChatGPT Ентерприсе усерс, са могућношћу ширег приступа за истраживаче након тога.

Напомена: OpenAIАлтман у америчком Сенату да разговара о ризицима од вештачке интелигенције

Нијансе цензура од ДАЛЛ-Е 3

Примарне фокусне тачке развоја ДАЛЛ-Е 3 је био педантан процес обуздавања његових способности. Ово је укључивало строго усклађивање и филтере дизајниране да искључе одређене врсте садржаја. На пример, модел упорно одбија да генерише слике познатих личности, реплицира уметничка дела у стилу реномираних уметника или креира било какав садржај који се сматра небезбедним од стране OpenAIпроницљиви стандарди. Овај стратешки приступ се не односи само на ограничења; то је проактивна мера која има за циљ да заштити компанију од потенцијалних правних заплета.

Ипак, поред ових филтера и поравнања, на видело излазе нека интригантна запажања. Чини се да ДАЛЛ-Е 3 показује извесну слабост када је у питању генерисање фотореалистичког садржаја. Уместо да производи слике које беспрекорно опонашају стварне фотографије, резултат има изразит стилизовани квалитет. Ове слике направљене од вештачке интелигенције одишу готово исцртаним и помало пластичним изгледом. Чак и када је експлицитно подстакнут речју „фотографија“, резултат остаје укорењен у својој карактеристичној стилизацији.

Промпт #1 — Подсетник бр. 1: Фотографија ракова пустињака у крупном плану смештена у влажном песку, са морском пеном у близини и наглашеним детаљима љуске и текстуром песка.

Промпт #2 — Упозорење бр. 2: Живописни жути кауч у облику банане седи у удобној дневној соби, а његова крива љуља гомилу шарених јастука. на дрвеном поду, тепих са узорком додаје дашак еклектичног шарма, а биљка у саксији седи у углу, допирући до сунчеве светлости која филтрира кроз прозор.

Промпт #3 — Упозорење #3: Фотографија древне олупине брода смештене на дну океана. Морске биљке су преузеле дрвену структуру, а рибе пливају у и из њених шупљих простора. Потопљено благо и стари топови су разбацани унаоколо, пружајући увид у прошлост.

Вреди напоменути да упркос овим идиосинкразијама, ДАЛЛ-Е 3 заиста нуди увид у изузетан потенцијал. Међу његовим креацијама, неки примерци показују упадљиву сличност са фотографијама. Имати на уму да симулирани реализам ових слика није нужно усклађен са начином на који би се појавила права фотографија истог субјекта, посебно ако је потопљена под водом.

Напомена: Мицрософт је представио Десигнер, први професионални алат за претварање текста у слику заснован на ДАЛЛ-Е 2

ДАЛЛ-Е 3 карактеристике и детаљи

Хајде да одвојимо тренутак да прегледамо пикселе и читамо између редова да бисмо разумели шта овај нови модел заиста нуди.

Уметност стилизације: Погледом кроз OpenAIИнстаграм налог корисника, приметићете обиље уметничких дела које карактерише изузетна стилизација. Иако постоји импресиван низ апстрактних композиција и дизајна, чини се да модел избегава да производи фотореалистичан садржај. Овде је нагласак на естетици и креативности, а не на опонашању стварности.

Уметничка ограничења: ДАЛЛ-Е 3 иде другачијим путем од свог претходника. Одлучно одбија да ствара слике у стилу живих уметника, што је потпуно одступање од ДАЛЛ-Е 2, који би могао да имитира стилове одређених уметника. Ово би могло да подигне обрве у креативној заједници, слично млаком пријему Stable Diffusion КСНУМКС.

Оснаживање уметника: У циљу поштовања права уметника, OpenAI омогућава уметницима да искључе своје радове из будућих ДАЛЛ-Е верзија. Подношењем слике на коју поседују права, уметници могу да захтевају њено искључење из резултата модела. Будуће итерације ДАЛЛ-Е ће тада избећи генерисање садржаја који личи на стил уметника.

Безбедност и цензура: OpenAIОпипљива је параноја око безбедности. Они су сарађивали са спољним „црвеним тимовима“ да би тестирали безбедност модела и користили класификаторе уноса како би научили модел да игнорише одређене речи које могу довести до експлицитног или штетног садржаја. ДАЛЛ-Е 3 се уздржава од поновног креирања слика јавне личности када су њихова имена експлицитно наведена. Да ли славне личности спадају у ову категорију остаје неизвесно, што потенцијално утиче на квалитет генерисаних лица.

Водени жигови и праћење: Постоји наговештај о уграђивању ознака за праћење „слика генерисаних АИ“, што указује на помак ка бољем праћењу и потенцијалном воденом жигу генерисаном садржају.

Текст и руке су побољшани: OpenAI рекламира побољшано генерисање текста и ручно приказивање, што је уобичајена тврдња међу конкуренцијом. Прави тест лежи у стварном резултату изван примера који су одабрани.

Спатиал Цомпрехенсион: ДАЛЛ-Е 3 се истиче у разумевању просторних односа описаних у упутствима. Ово побољшава способност модела да конструише сложене углове и композиције, иако корисници чекају конкретније доказе о овом обећању.

Моћ упутстава: Суштина ДАЛЛ-Е3 лежи у његовим брзим могућностима и интеграцији са ChatGPT. Обећава аутоматизацију, брзину и поједностављење брзог дизајна. Овде је тренд ка chatGPT генерисање упита, преводећи нејасне идеје или рудиментарне нагоне у елоквентне. Побољшано контекстуално разумевање ДАЛЛ-Е 3 поједностављује процес, омогућавајући корисницима да се фокусирају на намеру, а не на опширност.

Унцхартед Территориес: Посебно одсутни у дискусији су аспекти као што су сликање, надсликавање, генеративно попуњавање и 3Д моделирање. Одсуство ових функција може бити ограничење, посебно за кориснике који су навикли на свестраније моделе.

Pristup detaljima: ДАЛЛ-Е 3 је подешен да постане доступан ChatGPT Плус и Ентерприсе купци почетком октобра. Међутим, специфичности у вези са доделом кредита за ChatGPT Плус корисници и повезани трошкови остају нејасни. Приступ ће бити обезбеђен преко АПИ-ја и OpenAI Лабс платформа „касније у јесен“.

Интегратион Провесс: ДАЛЛ-Е је постављен да буде неприметно интегрисан у партнерске и Мицрософт производе. Очекујте да будете сведоци генерисања презентација, илустрација, дизајна, логотипа, све у контексту и појачано уз помоћ ChatGPT. Ова интеграција ће постати мејнстрим, представљајући значајан изазов за конкуренте попут Гугл са својим Бардом и идеограм.

Конвергенција ЛЛМ и визуелног садржаја: Најинтригантнији аспект лежи у конвергенцији модела великих језика (ЛЛМ) и модела генерисања визуелног садржаја. То означава прелазак са сложеног брзог инжењеринга на изражавање идеја на приступачнијем језику. АИ ће из ових израза извући контекст и идеје, нудећи креативне могућности којима је тешко одољети.

Напомена: 50 најбољих упита за претварање текста у слику за АИ Арт Генераторе Midjourney и ДАЛЛ-Е

ДАЛЛ-Е 3: Будите нови лидер у генерацији АИ имиџа

OpenAIОдлука да интегрише ДАЛЛ-Е 3 у ChatGPT екосистем је стратешки потез. Ова интеграција даје ДАЛЛ-Е 3 приступ огромној бази података корисника од 100 милиона активних корисника. Овај корак значајно побољшава доступност ДАЛЛ-Е 3 и има потенцијал да катапултира његову популарност.

Тренутно, Midjourney Stable Diffusion хвалити се около КСНУМКС милиона регистрованих корисника. Међутим, са овом интеграцијом, ДАЛЛ-Е 3 ће добити приступ десет пута већој корисничкој бази — 100 милиона корисника. Ово чини ChatGPT Плус претплата План је још привлачнији, јер нуди приступ роботу за ћаскање, аналитичким алатима и генерисању слика, све по приступачној цени.

Интеграција није само корисна за постојеће кориснике, већ служи и као снажан магнет за нове кориснике. То проширује OpenAI домет и популарност екосистема, привлачећи појединце који траже решења за садржај генерисана вештачком интелигенцијом.

Овај стратешки потез је спреман за јачање OpenAIприход корисника и други кључни показатељи. Инвеститори компаније ће вероватно позитивно гледати на овај развој догађаја, посебно у светлу недавног 20% пад обима саобраћаја током лета.

ChatGPT Веб саобраћај опада за 20% у септембру и наставља да опада

Прочитајте више сродних тема:

Ознаке:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.

više чланака

Дамир Иалалов