Новини Технологии
Ноември 17, 2022

Nvidia обяви eDiff-I: нов генериращ AI за синтез на текст и изображения с незабавен трансфер на стилове

Накратко

Nvidia пуска eDiff-I, за да помогне на бизнеса да създава висококачествени, ангажиращи изображения

Техниката eDiff-I редовно произвежда по-високо качество на синтез от DALL-E2 и Stable diffusion

eDiff-I е нов инструмент за създаване на съдържание с изкуствен интелект, който осигурява безпрецедентни възможности за синтезиране на текст към изображение за търговци и фирми, както беше обявено наскоро от Nvidia. С eDiff-I фирмите могат бързо и лесно да създават висококачествени, ангажиращи визуални елементи без необходимост от скъпо оборудване или професионална помощ. eDiff-I използва обработка на естествен език (NLP), за да интерпретира въвеждането на потребителя и да генерира съответните изображения. След това AI анализира изображенията и избира най-подходящото въз основа на контекста. Резултатът е висококачествено, професионално изглеждащо изображение, което може да се използва за различни цели, като маркетингови материали, публикации в социални медии, имейл кампании и др.

eDiff-I е a следващо поколение генериращ AI инструмент за създаване на съдържание, който предоставя безпрецедентно текст към изображение синтез, бърз трансфер на стил и интуитивно рисуване с думи. Като дифузионен модел за създаване на визуализации от текст, eDiff-I предлага обучение на ансамбъл от експертни мрежи за премахване на шума, всяка специализирана за конкретен шумов интервал, в отговор на емпиричното откритие, че поведението на дифузионните модели варира в различните фази на вземане на проби.

Nvidia обяви eDiff-I: нов генериращ AI за синтез на текст и изображения с незабавен трансфер на стилове

Текстовите вграждания на T5, вгражданията на CLIP изображения и вгражданията на CLIP текст осигуряват основата за концепцията eDiff-I. Тази методология може да създаде фотореалистични графики в отговор на всяка текстова заявка.

Той представя две допълнителни възможности в допълнение към синтеза на текст към изображение: (1) прехвърляне на стил, което ни позволява да контролираме стила на генерираната проба с помощта на референтно стилово изображение и (2) „Рисуване с думи“, инструмент което позволява на потребителите да създават изображения чрез рисуване на сегментационни карти върху платно.

Тръбопровод
Тръбопровод

Конвейерът се състои от каскада от три дифузионни модела: основен модел, който може да създава проби с разделителна способност 64 × 64 и два стека със супер разделителна способност, които могат постепенно да увеличават изображенията до разделителни способности съответно 256 × 256 и 1024 × 1024. Моделите изчисляват T5 XXL и вграждане на текст след получаване на надпис като вход. Тези вградени картини могат да се използват като вектор на стил. След това захранете тези вграждания в нашите каскадни дифузионни модели, които постепенно създават изображения с разделителна способност 1024 x 1024.

Подходът eDiff-I постоянно води до по-добро качество на синтез в сравнение с алгоритмите за текст към изображение с отворен код (Stable diffusion) и (DALL-E2).

Резултати
Резултати

Когато се използват вграждания на CLIP изображения, подходът eDiff-I улеснява прехвърлянето на стил. eDiff-I първо извлича CLIP вграждания на изображения от референтно стилово изображение, което може да се използва като стилов референтен вектор. Стилистична препратка може да се види на фигурата по-долу в левия панел. Резултатите, когато кондиционирането на стила е включено, се показват в централния панел. Резултатите, когато кондиционирането на стила е изключено, се показват в панела вдясно. Когато се приложи стилово обуславяне, моделът eDiff-I създава изходи, които също са верни на стила на входния надпис. Когато настройката на стила е изключена, се създават естествено изглеждащи снимки.

Трансфер на стил
Трансфер на стил

Като избират фрази и ги надраскват върху изображението, потребителите на метода eDiff-I могат да променят разположението на нещата, които са изброени в текстовата подкана. След това моделът използва подкана и картите за създаване на изображения които са съвместими както с надписа, така и с входната карта.

Прочетете свързани статии:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Още статии
Дамир Ялалов
Дамир Ялалов

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Hot Stories
Присъединете се към нашия бюлетин.
Последни новини

Пристига денят на присъдата: Съдбата на CZ виси на равновесие, докато американският съд разглежда молбата на DOJ

Changpeng Zhao е готов да бъде осъден днес в американски съд в Сиатъл.

Научете още

Основателите на портфейла Samourai са обвинени в улесняване на $2 милиарда в Darknet сделки

Заплахата от страна на основателите на портфейла Samourai Wallet представлява забележителна неуспех за индустрията, подчертавайки постоянните...

Научете още
Присъединете се към нашата иновативна техническа общност
Вижте повече
Прочети повече
Pantera Capital инвестира в TON Blockchain, изразява увереност в потенциала на Telegram за разширяване на крипто достъпността
Бизнес Новини Технологии
Pantera Capital инвестира в TON Blockchain, изразява увереност в потенциала на Telegram за разширяване на крипто достъпността
Май 2, 2024
Mitosis набира $7 милиона финансиране от Amber Group и Foresight Ventures, за да усъвършенства модулния си протокол за ликвидност
Бизнес Новини Технологии
Mitosis набира $7 милиона финансиране от Amber Group и Foresight Ventures, за да усъвършенства модулния си протокол за ликвидност
Май 2, 2024
Galxe си партнира с Jambo, за да разшири глобалната достъпност до Web3
Бизнес Новини Технологии
Galxe си партнира с Jambo, за да разшири глобалната достъпност до Web3
Май 2, 2024
Google Med-Gemini е готов да даде преднина на GPT-4 С превъзходното си представяне в здравеопазването
AI Wiki Статии Софтуер Технологии
Google Med-Gemini е готов да даде преднина на GPT-4 С превъзходното си представяне в здравеопазването
Май 2, 2024
CRYPTOMERIA LABS PTE. LTD.