Novinky Technika
Září 28, 2023

Meta odhaluje „Emu“ pro zlepšení generování AI obrázků

Stručně

Meta AI vyvinula metodu pro vylepšení modelů generování obrázků pomocí fotogenických jehel v kupce sena.

Proces zahrnuje předtrénování modelu difúze na rozsáhlém souboru dat pomocí textových kodérů k dosažení rozlišení 1024 × 1024 pixelů.

Datový soubor prochází rozsáhlým filtrováním, přičemž lidská expertíza odstraňuje podprůměrné obrázky.

Emu: Inovativní přístup Meta AI k vylepšení modelů generování obrázků

Meta AI nedávno sdílela své výzkum papír podrobně popisuje nový přístup vyvinutý za účelem vylepšení generování nálepek a obrázků v rámci svých služeb. List s názvem „Emu: Vylepšení modelů generování obrázků pomocí fotogenických jehel v kupce sena,“ si klade za cíl demonstrovat, jak „kvalitně vyladěná“ tréninková metoda může výrazně zvýšit kvalitu generování obrázků – i na malém datovém souboru.

Meta's Podrobnosti o metodě a modelu před tréninkem

Počáteční fáze zahrnuje předtrénování modelu difúze pomocí rozsáhlé datové sady obsahující 1.1 miliardy párů obrázek-text z interních zdrojů Meta AI. Fáze se opírá o model U-Net se statnými 2.8 miliardami parametrů. Ve spojení s modelem jsou použity textové kodéry, konkrétně CLIP ViT-L a T5-XXL. Konečným cílem modelu je vygenerovat obrázek v rozlišení 1024×1024 pixelů.

Datový soubor modelu prochází přísnou filtrací, která eliminuje více než 200,000 XNUMX vzorků z více než miliardy příkladů. Používá se více filtrů, včetně klasifikátorů hodnotících estetiku obrazu, mechanismy pro vyřazení nežádoucího obsahu, optické rozpoznávání znaků (OCR) pro vyloučení obrazů s velkým množstvím textu a filtrování na základě rozlišení a proporcí. Na proces filtrování mají vliv také metriky oblíbenosti, například hodnocení Líbí se mi.

PODOBNÉ ČLÁNKY: Meta odhaluje integraci umělé inteligence napříč službami, od generativního modelu Emu po chytré brýle

V této fázi hraje hlavní roli lidská odbornost. Generalisté, jednotlivci, kteří mají komplexní přehled o datových anotacích, posoudí zbývajících 200,000 20,000 obrázků a sestaví podmnožinu XNUMX XNUMX. Primárním cílem je zde identifikovat a odstranit výrazně podprůměrné obrázky v případě, že se heuristika použitá v předchozím kroku ukáže jako nedostatečná.

PODOBNÉ ČLÁNKY: Meta představuje 28 AI postav a AI Studio pro rozšířenou kreativitu

Emu's Image Generation Prowes

Úkolem filtrování a výběru snímků se ujímá tým fotografických specialistů, kteří mají velké znalosti ve fotografických principech. Jejich cílem je identifikovat a zachovat snímky s nejvyšší estetickou kvalitou. Pečlivě zvažují faktory, jako je kompozice, osvětlení, barevná schémata, kontrasty, tematická relevance a pozadí.

Poslední úprava zahrnuje pečlivou tvorbu vysoce kvalitních textových anotací pro tento upravený datový soubor 2,000 XNUMX párů obrázek-text.

Nakonec model trénuje na této rafinované sadě dat a dokončuje 15,000 64 kroků s velikostí dávky XNUMX. Tato velikost dávky je relativně malá ve srovnání s velkými generativní modely. Zatímco model se může zdát přetrénovaný na základě ztráty validace, lidské hodnocení naznačuje opak. Podobný jev byl pozorován v jazykových modelech.

Prostřednictvím tohoto organizovaného vícefázového procesu dosahuje Meta AI vysoké kvality generování obrazu. Tato metodika si klade za cíl nejen zvýšit praktické přínosy jejich služeb, ale také podtrhuje význam pečlivého kurátorství a lidské odbornosti při zdokonalování obsahu generovaného umělou inteligencí. Pro další podrobnosti si můžete prohlédnout kompletní článek.

Příklad generování pro stejné výzvy. Vlevo je model po kroku 1 (tedy jen předtrénovat, bez vrtění se s daty) a vpravo po absolvování všech procedur.

Přečtěte si další související témata:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Institucionální apetit roste směrem k bitcoinovým ETF uprostřed volatility

Zveřejnění prostřednictvím podání 13F odhaluje, že pozoruhodní institucionální investoři fušují do bitcoinových ETF, což podtrhuje rostoucí akceptaci...

Vědět více

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Společnost Nexo zahajuje „hon“, aby odměnila uživatele 12 miliony dolarů v tokenech NEXO za zapojení do jejího ekosystému
Trhy Novinky Technika
Společnost Nexo zahajuje „hon“, aby odměnila uživatele 12 miliony dolarů v tokenech NEXO za zapojení do jejího ekosystému
8
Revolut X Exchange Crypto Traders s nulovými poplatky za tvůrce a pokročilou analýzou
Trhy Vývoj Příběhy a recenze Technika
Revolut X Exchange Crypto Traders s nulovými poplatky za tvůrce a pokročilou analýzou
8
Crypto Trading Platform BitMEX uvádí na trh opční obchodování s 0 poplatky a hotovostními pobídkami
Business Trhy Novinky
Crypto Trading Platform BitMEX uvádí na trh opční obchodování s 0 poplatky a hotovostními pobídkami
8
Lisk oficiálně přechází na Ethereum Layer 2 a odhaluje Core v4.0.6
Novinky Technika
Lisk oficiálně přechází na Ethereum Layer 2 a odhaluje Core v4.0.6
8
CRYPTOMERIA LABS PTE. LTD.