Novice
November 06, 2022

ERNIE-ViLG 2.0: novi model besedila v sliko podjetja Baidu prekaša Dalle-2 in Stable Diffusion

Na kratko

Tako Dalle-2 kot Stable Diffusion ERNIE-ViLG 2.0 jih je znatno presegel

ERNIE-ViLG 2.0 je model besedila v sliko, ki ponuja boljše delovanje kot Dalle-2 in Stable Diffusion, dva najbolj priljubljena modela besedila v sliko, ki sta trenutno na voljo. Novi model je oblikovala in usposobila skupina raziskovalcev iz Baiduja, rezultati pa so osupljivi.

Novi model besedila v sliko ERNIE-ViLG 2.0 prekaša Dalle-2 in Stable Diffusion
Slika, ki jo je ustvaril ERNIE-ViLG 2.0

Rezultati so pokazali, da je ERNIE-ViLG 2.0 znatno presegel Dalle-2 in Stable Diffusion. To je pomemben dosežek in dokazuje moč ogrodja ERNIE. The Metaverse Post ekipa je primerjala ERNIE-ViLG 2.0 z Stable Diffusion spodaj:

ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0

Ti rezultati močno podpirajo hipotezo, da je ERNIE-ViLG 2.0 učinkovitejši sistem besedila v sliko kot Dalle-2 in Stable Diffusion.

Arhitektura Unet iz Stable Diffusion vzeto kot osnova, vendar s spremembami:

  • Mešanica strokovnjakov za odstranjevanje hrupa: Obstaja 10 nevronskih mrež namesto le ene, pri čemer je vsaka odgovorna samo za določene korake difuzije.
  • Besedilno znanje: Samodejno ponovno uteži besede v poizvedbi, tako da ključne besede dobijo večjo težo.
  • Vizualno znanje: Med usposabljanjem so bili predmeti zaznani na rezultatih vmesne generacije in povečana je bila teža funkcije izgube na regijah s predmeti.

Kot rezultat, največji na svetu model besedila v sliko predstavil 24 milijard parametrov (10-krat večji od SD) za usposabljanje modela.

V primerjavi s prejšnjimi modeli jih ERNIE-ViLG 2.0 močno prekaša v smislu kakovosti slike in ujemanja slike z besedilom, če se sočasno testira na dvojezičnem ViLG-300 poziv določi oseba.

Pozivi so preprosto samodejno prevedeni iz kitajščine v angleščino v HuggingFace javna predstavitev, preden se pošlje v AI. Iz tega izhaja veliko funkcij.

  • ERNIE ne pozna mednarodnih javnih osebnosti. Na primer, ERNIE ne pozna Arnolda Schwarzeneggerja. Zagotovo ima lokalne priljubljene na Kitajskem.
  • Posledično metoda uporabe imen slavnih v pozivih dramatično poveča kakovost obrazi ne uspe.
  • Pričakujete lahko nekaj popačenj zaradi prevoda iz kitajščine, zato vas lahko čaka nekaj presenečenj, če ne govorite kitajščine.
  • Ničesar ne ve niti o Gregu Rutkowskem.

Preberite povezane članke:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

več člankov
Damir Yalalov
Damir Yalalov

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

Institucionalni apetit raste proti Bitcoin ETF-jem sredi volatilnosti

Razkritja prek vlog 13F razkrivajo pomembne institucionalne vlagatelje, ki se ukvarjajo z Bitcoin ETF, kar poudarja vse večje sprejemanje ...

Več o tem

Prihaja dan obsodbe: usoda CZ visi na ravnovesju, ko ameriško sodišče obravnava tožbeni razlog DOJ

Changpeng Zhao se danes sooča z obsodbo na ameriškem sodišču v Seattlu.

Več o tem
Pridružite se naši inovativni tehnološki skupnosti
Preberi več
Preberi več
Injective združuje moči z AltLayer, da bi v inEVM prinesel varnost preoblikovanja
ŽELITE POSTATI PARTNER Novice Tehnologija
Injective združuje moči z AltLayer, da bi v inEVM prinesel varnost preoblikovanja
Maj 3, 2024
Masa se združuje s podjetjem Teller, da uvede MASA Lending Pool, ki omogoča izposojo USDC na osnovi
Prisotnost Novice Tehnologija
Masa se združuje s podjetjem Teller, da uvede MASA Lending Pool, ki omogoča izposojo USDC na osnovi
Maj 3, 2024
Velodrome v prihodnjih tednih lansira različico Superchain Beta in se širi po verigah blokov plasti 2 sklada OP
Prisotnost Novice Tehnologija
Velodrome v prihodnjih tednih lansira različico Superchain Beta in se širi po verigah blokov plasti 2 sklada OP
Maj 3, 2024
CARV napoveduje partnerstvo z Aethirjem za decentralizacijo njegove podatkovne plasti in razdeljevanje nagrad
ŽELITE POSTATI PARTNER Novice Tehnologija
CARV napoveduje partnerstvo z Aethirjem za decentralizacijo njegove podatkovne plasti in razdeljevanje nagrad
Maj 3, 2024
CRYPTOMERIA LABS PTE. LTD.