Nvidia обяви eDiff-I: нов генериращ AI за синтез на текст и изображения с незабавен трансфер на стилове
Накратко
Nvidia пуска eDiff-I, за да помогне на бизнеса да създава висококачествени, ангажиращи изображения
Техниката eDiff-I редовно произвежда по-високо качество на синтез от DALL-E2 и Stable diffusion
eDiff-I е нов инструмент за създаване на съдържание с изкуствен интелект, който осигурява безпрецедентни възможности за синтезиране на текст към изображение за търговци и фирми, както беше обявено наскоро от Nvidia. С eDiff-I фирмите могат бързо и лесно да създават висококачествени, ангажиращи визуални елементи без необходимост от скъпо оборудване или професионална помощ. eDiff-I използва обработка на естествен език (NLP), за да интерпретира въвеждането на потребителя и да генерира съответните изображения. След това AI анализира изображенията и избира най-подходящото въз основа на контекста. Резултатът е висококачествено, професионално изглеждащо изображение, което може да се използва за различни цели, като маркетингови материали, публикации в социални медии, имейл кампании и др.
eDiff-I е a следващо поколение генериращ AI инструмент за създаване на съдържание, който предоставя безпрецедентно текст към изображение синтез, бърз трансфер на стил и интуитивно рисуване с думи. Като дифузионен модел за създаване на визуализации от текст, eDiff-I предлага обучение на ансамбъл от експертни мрежи за премахване на шума, всяка специализирана за конкретен шумов интервал, в отговор на емпиричното откритие, че поведението на дифузионните модели варира в различните фази на вземане на проби.
Текстовите вграждания на T5, вгражданията на CLIP изображения и вгражданията на CLIP текст осигуряват основата за концепцията eDiff-I. Тази методология може да създаде фотореалистични графики в отговор на всяка текстова заявка.
Той представя две допълнителни възможности в допълнение към синтеза на текст към изображение: (1) прехвърляне на стил, което ни позволява да контролираме стила на генерираната проба с помощта на референтно стилово изображение и (2) „Рисуване с думи“, инструмент което позволява на потребителите да създават изображения чрез рисуване на сегментационни карти върху платно.
Конвейерът се състои от каскада от три дифузионни модела: основен модел, който може да създава проби с разделителна способност 64 × 64 и два стека със супер разделителна способност, които могат постепенно да увеличават изображенията до разделителни способности съответно 256 × 256 и 1024 × 1024. Моделите изчисляват T5 XXL и вграждане на текст след получаване на надпис като вход. Тези вградени картини могат да се използват като вектор на стил. След това захранете тези вграждания в нашите каскадни дифузионни модели, които постепенно създават изображения с разделителна способност 1024 x 1024.
Подходът eDiff-I постоянно води до по-добро качество на синтез в сравнение с алгоритмите за текст към изображение с отворен код (Stable diffusion) и (DALL-E2).
Когато се използват вграждания на CLIP изображения, подходът eDiff-I улеснява прехвърлянето на стил. eDiff-I първо извлича CLIP вграждания на изображения от референтно стилово изображение, което може да се използва като стилов референтен вектор. Стилистична препратка може да се види на фигурата по-долу в левия панел. Резултатите, когато кондиционирането на стила е включено, се показват в централния панел. Резултатите, когато кондиционирането на стила е изключено, се показват в панела вдясно. Когато се приложи стилово обуславяне, моделът eDiff-I създава изходи, които също са верни на стила на входния надпис. Когато настройката на стила е изключена, се създават естествено изглеждащи снимки.
Като избират фрази и ги надраскват върху изображението, потребителите на метода eDiff-I могат да променят разположението на нещата, които са изброени в текстовата подкана. След това моделът използва подкана и картите за създаване на изображения които са съвместими както с надписа, така и с входната карта.
Прочетете свързани статии:
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.
Още статииДамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.