ERNIE-ViLG 2.0: Nový model převodu textu na obrázek od Baidu překonává Dalle-2 a Stable Diffusion
Stručně
Oba Dalle-2 a Stable Diffusion byly výrazně lepší než ERNIE-ViLG 2.0
ERNIE-ViLG 2.0 je model převodu textu na obrázek, který nabízí lepší výkon než Dalle-2 a Stable Diffusion, dva z nejpopulárnějších aktuálně dostupných modelů převodu textu na obrázek. Nový model navrhl a vycvičil tým výzkumníků z Baidu a výsledky jsou úchvatné.
Výsledky ukázaly, že ERNIE-ViLG 2.0 významně překonal Dalle-2 a Stable Diffusion. To je významný úspěch a demonstruje sílu rámce ERNIE. The Metaverse Post tým porovnával ERNIE-ViLG 2.0 s Stable Diffusion níže:
Tyto výsledky poskytují silnou podporu pro hypotézu, že ERNIE-ViLG 2.0 je efektivnější systém text-to-image než Dalle-2 a Stable Diffusion.
Architektura Unet z Stable Diffusion se bere jako základ, ale se změnami:
- Směs odborníků na odstranění šumu: Existuje 10 neuronových sítí namísto jedné, přičemž každá je zodpovědná pouze za určité kroky šíření.
- Znalost textu: Automaticky převážila slova v dotazu, aby klíčová slova získala větší váhu.
- Vizuální znalosti: Během tréninku byly objekty detekovány na výsledcích mezigenerace a váha ztrátové funkce v oblastech s objekty byla zvýšena.
V důsledku toho největší na světě model text-to-image vyšel s 24 miliardami parametrů (10krát větší než SD) pro trénování modelu.
Výzvy se jednoduše překládají z čínštiny do angličtiny automaticky v Objímání tváře veřejné demo před odesláním do AI. Z toho plyne spousta funkcí.
- ERNIE nezná mezinárodní osobnosti veřejného života. Například ERNIE nezná Arnolda Schwarzeneggera. Určitě má v Číně místní oblíbené.
- Výsledkem je, že metoda používání jmen celebrit ve výzvách k dramatickému zvýšení kvality tváře nezdaří.
- Můžete očekávat určité zkreslení kvůli překladu z čínštiny, takže pokud nemluvíte čínsky, může pro vás být připraveno nějaké překvapení.
- Ani o Gregu Rutkowskim nic neví.
Přečtěte si související články:
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.
Další článkyDamir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.