ERNIE-ViLG 2.0: Nový model prevodu textu na obrázok od Baidu prekonáva Dalle-2 a Stable Diffusion
Stručne
Obaja Dalle-2 a Stable Diffusion boli výrazne lepšie ako ERNIE-ViLG 2.0
ERNIE-ViLG 2.0 je model prevodu textu na obrázok, ktorý ponúka lepší výkon ako Dalle-2 a Stable Diffusion, dva z najpopulárnejších modelov prevodu textu na obrázok, ktoré sú v súčasnosti k dispozícii. Nový model bol navrhnutý a vyškolený tímom výskumníkov z Baidu a výsledky sú úchvatné.
Výsledky ukázali, že ERNIE-ViLG 2.0 výrazne prekonal Dalle-2 a Stable Diffusion. Toto je významný úspech a demonštruje silu rámca ERNIE. The Metaverse Post tím porovnal ERNIE-ViLG 2.0 s Stable Diffusion nižšie:
Tieto výsledky poskytujú silnú podporu pre hypotézu, že ERNIE-ViLG 2.0 je efektívnejší text-to-image systém ako Dalle-2 a Stable Diffusion.
Architektúra Unet z Stable Diffusion sa berie ako základ, ale so zmenami:
- Zmes odborníkov na odšumovanie: Existuje 10 neurónových sietí namiesto jednej, pričom každá je zodpovedná len za určité kroky šírenia.
- znalosť textu: Automaticky prehodnotila slová v dopyte, aby kľúčové slová získali väčšiu váhu.
- Vizuálne znalosti: Počas tréningu boli objekty detegované na výsledkoch strednej generácie a zvýšila sa váha stratovej funkcie v oblastiach s objektmi.
V dôsledku toho najväčší na svete model textu na obrázok vyšiel s 24 miliardami parametrov (10-krát väčšími ako SD) na trénovanie modelu.
Výzvy sa jednoducho prekladajú z čínštiny do angličtiny automaticky v HuggingFace verejné demo pred odoslaním do AI. Z toho vyplýva množstvo funkcií.
- ERNIE nepozná medzinárodné verejné osobnosti. Napríklad ERNIE nepozná Arnolda Schwarzeneggera. Určite má v Číne miestne obľúbené.
- Výsledkom je, že metóda používania mien celebrít vo výzvach na dramatické zvýšenie kvality tváre zlyhá.
- Môžete očakávať určité skreslenie kvôli prekladu z čínštiny, takže ak neviete po čínsky, môžu vás čakať prekvapenia.
- Nevie nič ani o Gregovi Rutkowskom.
Prečítajte si súvisiace články:
Vylúčenie zodpovednosti
V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.
O autorovi
Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.
Ďalšie článkyDamir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.