Новини
Ноември 06, 2022

ERNIE-ViLG 2.0: Новият модел текст към изображение от Baidu превъзхожда Dalle-2 и Stable Diffusion

Накратко

Както Dalle-2, така и Stable Diffusion бяха значително по-добри от ERNIE-ViLG 2.0

ERNIE-ViLG 2.0 е модел текст към изображение, който предлага по-добра производителност от Dalle-2 и Stable Diffusion, два от най-популярните налични в момента модели текст към изображение. Новият модел е проектиран и обучен от екип от изследователи от Baidu, а резултатите са спиращи дъха.

Новият модел текст към изображение ERNIE-ViLG 2.0 превъзхожда Dalle-2 и Stable Diffusion
Изображението, създадено от ERNIE-ViLG 2.0

Резултатите показват, че ERNIE-ViLG 2.0 значително превъзхожда Dalle-2 и Stable Diffusion. Това е значително постижение и демонстрира силата на рамката ERNIE. The Metaverse Post екип сравни ERNIE-ViLG 2.0 с Stable Diffusion По-долу:

ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0

Тези резултати осигуряват силна подкрепа за хипотезата, че ERNIE-ViLG 2.0 е по-ефективен система текст към изображение отколкото както Dalle-2, така и Stable Diffusion.

Архитектурата на Unet от Stable Diffusion се взема за основа, но с промени:

  • Смес от експерти по обезшумяване: Има 10 невронни мрежи вместо само една, като всяка е отговорна само за определени стъпки на разпространение.
  • Текстови познания: Автоматично претегля думите в заявката, така че ключовите думи да получат по-голяма тежест.
  • Визуално познание: По време на обучението бяха открити обекти в резултатите от междинното генериране и теглото на функцията за загуба на региони с обекти беше увеличено.

В резултат на това най-големият в света модел текст към изображение излезе с 24 милиарда параметри (10 пъти по-големи от SD) за обучение на модела.

В сравнение с по-ранните модели, ERNIE-ViLG 2.0 значително ги превъзхожда по отношение на качеството на изображението и съвпадението между изображение и текст, когато се тества едновременно на двуезичния ViLG-300 бърз зададен от човек.

Подканите просто се превеждат автоматично от китайски на английски в HuggingFace публична демонстрация, преди да бъде изпратена в AI. Много функции произтичат от това.

  • ЪРНИ не познава международни публични личности. Например ЪРНИ не познава Арнолд Шварценегер. Със сигурност има местни фаворити в Китай.
  • В резултат на това методът за използване на имена на знаменитости в подкани води до драстично повишаване на качеството на лица неуспешна.
  • Можете да очаквате известно изкривяване поради превода от китайски, така че може да има някои изненади за вас, ако не говорите китайски.
  • То дори не знае нищо за Грег Рутковски.

Прочетете свързани статии:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Още статии
Дамир Ялалов
Дамир Ялалов

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Hot Stories
Присъединете се към нашия бюлетин.
Последни новини

Пристига денят на присъдата: Съдбата на CZ виси на равновесие, докато американският съд разглежда молбата на DOJ

Changpeng Zhao е готов да бъде осъден днес в американски съд в Сиатъл.

Научете още

Основателите на портфейла Samourai са обвинени в улесняване на $2 милиарда в Darknet сделки

Заплахата от страна на основателите на портфейла Samourai Wallet представлява забележителна неуспех за индустрията, подчертавайки постоянните...

Научете още
Присъединете се към нашата иновативна техническа общност
Вижте повече
Прочети повече
Ankr си сътрудничи с AI Blockchain платформа Talus Network, за да отключи биткойн ликвидност за AI
Бизнес Новини Технологии
Ankr си сътрудничи с AI Blockchain платформа Talus Network, за да отключи биткойн ликвидност за AI
Май 1, 2024
Binance Labs поддържа Movement Labs, за да улесни интеграцията на Facebook Move в блокчейни
Бизнес Новини Технологии
Binance Labs поддържа Movement Labs, за да улесни интеграцията на Facebook Move в блокчейни
Май 1, 2024
BRICS Nations Eye Решение за търговия със стейбълкойни
Бизнес пазари Истории и рецензии Технологии
BRICS Nations Eye Решение за търговия със стейбълкойни
Май 1, 2024
Bitcoin L2 мрежа BOB се интегрира с LayerZero за подобрена функционалност
Бизнес Новини Технологии
Bitcoin L2 мрежа BOB се интегрира с LayerZero за подобрена функционалност
Май 1, 2024
CRYPTOMERIA LABS PTE. LTD.