Novinová správa Technológia
Júna 19, 2023

SnapFusion: Rýchly model prevodu textu na obrázok pre mobilné zariadenia za 1.9 sekundy

Stručne

SnapFusion mení vytváranie obsahu spustením modely difúzie textu na obrázok priamo na mobilných zariadeniach, čím sa znižujú náklady a riešia sa obavy o súkromie.

SnapFusion je model umelej inteligencie typu text-to-image, ktorý používateľom umožňuje vytvárať úžasné obrázky z popisov v prirodzenom jazyku, a to všetko v priebehu dvoch sekúnd na ich mobilných zariadeniach. Preč sú dni spoliehania sa na špičkové GPU alebo cloudové služby pri prevádzke týchto zložitých modelov. SnapFusion demokratizuje tvorbu obsahu tým, že dáva silu šírenia textu na obrázok do rúk používateľov.

SnapFusion: Rýchly a efektívny model prevodu textu na obrázok pre mobilné zariadenia za 1.9 sekundy
kredit: Midjourney / lili10292#2100

Vytváranie realistických obrázkov z textových popisov bolo vždy náročnou úlohou. Predchádzajúce modely vyžaduje veľké sieťové architektúry a viacnásobné iterácie odšumovania, čím sa vytvárajú výpočtovo drahé a pomalé. Okrem toho prevádzka týchto modelov často zahŕňala odosielanie používateľských údajov do služieb tretích strán, zvyšovanie problémy týkajúce sa ochrany osobných údajov.

Na riešenie týchto výziev vyvinuli tvorcovia SnapFusion efektívnu sieťovú architektúru a zlepšili proces krokovej destilácie. Identifikáciou redundancií v pôvodnom modeli zaviedli efektívny UNet a znížili výpočet obrazového dekodéra prostredníctvom dátová destilácia. Okrem toho zlepšili krokovú destiláciu skúmaním tréningových stratégií a zavedením techník regularizácie.

arxiv.org/pdf/2306.00980.pdf

Rozsiahle experimenty na Súbor údajov MS-COCO preukázali nadradenosť SnapFusion. Len s ôsmimi krokmi odšumovania dosiahol SnapFusion lepšie skóre FID a CLIP v porovnaní s predchádzajúcim najmodernejší model, Stable Diffusion v1.5, ktorá vyžadovala 50 krokov. Toto pozoruhodné zlepšenie efektivity a výkonu otvára nové možnosti pre tvorbu obsahu.

Vplyv SnapFusion presahuje jeho technické úspechy. Behaním modely difúzie textu na obrázok priamo na mobilných zariadeniach, eliminuje potrebu drahých GPU a cloudových služieb. To nielen znižuje náklady, ale rieši aj obavy o súkromie spojené s odosielaním používateľských údajov tretím stranám. Používatelia teraz môžu popustiť uzdu svojej kreativite a vytvárať vysokokvalitné obrázky na cestách.

Veľkosť parametrov modelu je možné ďalej zmenšiť, aby bol kompatibilný s rôznymi okrajovými zariadeniami. Okrem toho optimalizácia modelu pre rôzne mobilné zariadenia dosiahnuť rýchly záver rýchlosť je aktuálna téma výskumu.

Je nevyhnutné, aby ste SnapFusion a podobné technológie používali zodpovedne, aby ste zabránili škodlivým aplikáciám. Môžu sa prijať opatrenia, ako sú automatické detekčné systémy, ktoré identifikujú a označia obsah obrázka, ktorý porušuje predpisy. Dosiahnutím rovnováhy medzi inováciami a etickými úvahami môže SnapFusion zmeniť tvorbu obsahu a zároveň zabezpečiť bezpečnú a zodpovednú používateľskú skúsenosť.

Prečítajte si viac o AI:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Hot Stories

Inside Wall Street Memes (WSM): Odhalenie titulkov

by Viktória Palčiková
Môže 07, 2024

Objavte Crypto Whales: Kto je kto na trhu

by Viktória Palčiková
Môže 07, 2024
Pridajte sa k nášmu newsletteru.
Novinky

Inštitucionálny apetít rastie smerom k bitcoinovým ETF uprostred volatility

Zverejnenia prostredníctvom podaní 13F odhaľujú pozoruhodných inštitucionálnych investorov, ktorí sa venujú bitcoinovým ETF, čo podčiarkuje rastúcu akceptáciu ...

vedieť viac

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
LD Capital, Antalpha Ventures a Highblock Limited spojili svoje sily a spustili hongkonský fond likvidity ETF v hodnote 128 miliónov USD
firmy trhy Novinová správa
LD Capital, Antalpha Ventures a Highblock Limited spojili svoje sily a spustili hongkonský fond likvidity ETF v hodnote 128 miliónov USD
Môže 8, 2024
Inside Wall Street Memes (WSM): Odhalenie titulkov
firmy trhy Príbehy a recenzie Technológia
Inside Wall Street Memes (WSM): Odhalenie titulkov
Môže 7, 2024
Objavte Crypto Whales: Kto je kto na trhu
firmy trhy Príbehy a recenzie Technológia
Objavte Crypto Whales: Kto je kto na trhu
Môže 7, 2024
Orbiter Finance spolupracuje so sieťou Bitcoin Layer 2 Zulu a nasadzuje na Is Lwazi Testnet
firmy Novinová správa Technológia
Orbiter Finance spolupracuje so sieťou Bitcoin Layer 2 Zulu a nasadzuje na Is Lwazi Testnet 
Môže 7, 2024
CRYPTOMERIA LABS PTE. LTD.