Naujienų ataskaita Technologija
Birželio 19, 2023

SnapFusion: greitas teksto į vaizdą modelis mobiliesiems įrenginiams per 1.9 sekundės

Trumpai

„SnapFusion“ paleidžia turinio kūrimą teksto į vaizdą sklaidos modeliai tiesiogiai mobiliuosiuose įrenginiuose, sumažinant išlaidas ir sprendžiant privatumo problemas.

SnapFusion yra teksto į vaizdą AI modelis, leidžiantis vartotojams sukurti nuostabius vaizdus iš natūralios kalbos aprašymų, visa tai per dvi sekundes savo mobiliuosiuose įrenginiuose. Praėjo laikai, kai šie sudėtingi modeliai buvo naudojami aukščiausios klasės GPU arba debesies paslaugomis. „SnapFusion“ demokratizuoja turinio kūrimą, suteikdama teksto į vaizdą sklaidos galią į vartotojų rankas.

SnapFusion: greitas ir efektyvus teksto į vaizdą modelis mobiliesiems įrenginiams per 1.9 sekundės
Kreditas: Midjourney / lili10292#2100

Kurti tikroviškus vaizdus iš teksto aprašymų visada buvo sudėtinga užduotis. Ankstesni modeliai reikalingos didelės tinklo architektūros ir daugybę triukšmo slopinimo iteracijų, jas darant skaičiavimo požiūriu brangus ir lėtas. Be to, naudojant šiuos modelius dažnai buvo siunčiami vartotojo duomenys trečiųjų šalių paslaugoms, didinamas privatumo problemas.

Siekdami išspręsti šiuos iššūkius, „SnapFusion“ kūrėjai sukūrė efektyvią tinklo architektūrą ir patobulino etapinio distiliavimo procesą. Nustačius perteklinius pradinio modelio trūkumus, jie įdiegė efektyvų UNet ir sumažino vaizdo dekoderio skaičiavimą. duomenų distiliavimas. Be to, jie patobulino laipsnišką distiliavimą, tyrinėdami mokymo strategijas ir įdiegdami reguliavimo metodus.

SnapFusion: greitas teksto į vaizdą modelis mobiliesiems įrenginiams per 1.9 sekundės
arxiv.org/pdf/2306.00980.pdf

Išsamūs eksperimentai apie MS-COCO duomenų rinkinys pademonstravo „SnapFusion“ pranašumą. Vos aštuoniais triukšmo mažinimo žingsniais „SnapFusion“ pasiekė geresnius FID ir CLIP balus, palyginti su ankstesniu. moderniausias modelis, Stable Diffusion v1.5, kuriai reikėjo 50 žingsnių. Šis puikus efektyvumo ir našumo pagerėjimas atveria naujas turinio kūrimo galimybes.

„SnapFusion“ poveikis viršija techninius pasiekimus. Bėgdamas teksto į vaizdą sklaidos modeliai tiesiogiai mobiliuosiuose įrenginiuose, todėl nebereikia brangių GPU ir debesies paslaugų. Tai ne tik sumažina išlaidas, bet ir išsprendžia privatumo problemas, susijusias su vartotojo duomenų siuntimu trečiosioms šalims. Dabar vartotojai gali atskleisti savo kūrybiškumą ir kurti aukštos kokybės vaizdus keliaudami.

Modelio parametrų dydį galima dar labiau sumažinti, kad jis būtų suderinamas su įvairiais kraštiniais įrenginiais. Be to, modelio optimizavimas skirtingiems mobiliesiems įrenginiams padaryti greitas išvadas greitis yra nuolatinė tyrimų tema.

Labai svarbu atsakingai naudoti „SnapFusion“ ir panašias technologijas, kad būtų išvengta kenkėjiškų programų. Gali būti imtasi priemonių, pvz., automatinių aptikimo sistemų, kurios nustato ir pažymi vaizdo turinį, kuris pažeidžia taisykles. Išlaikydama pusiausvyrą tarp naujovių ir etinių sumetimų, „SnapFusion“ gali pakeisti turinio kūrimą, kartu užtikrindama saugią ir atsakingą vartotojo patirtį.

Skaitykite daugiau apie AI:

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Daugiau straipsnių
Damiras Jalalovas
Damiras Jalalovas

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Hot Stories
Prisijunkite prie mūsų naujienlaiškio.
Paskutinės naujienos

Ramybė prieš Solanos audrą: ką dabar sako diagramos, banginiai ir grandinės signalai

„Solana“ pademonstravo puikius rezultatus, kuriuos lėmė didėjantis pritaikymas, institucinis susidomėjimas ir svarbios partnerystės, tuo pačiu susidūrusi su potencialiomis...

Žinoti daugiau

Kriptovaliutos 2025 m. balandžio mėn.: pagrindinės tendencijos, pokyčiai ir kas bus toliau

2025 m. balandžio mėn. kriptovaliutų erdvė daugiausia dėmesio skyrė pagrindinės infrastruktūros stiprinimui, o „Ethereum“ ruošėsi „Pectra“...

Žinoti daugiau
Skaityti daugiau
Skaityti daugiau
Ronin patvirtina, kad Saigon Testnet perėjo prie optimizmo ir signalizuoja apie artėjančią pagrindinio tinklo migraciją
Naujienų ataskaita Technologija
Ronin patvirtina, kad Saigon Testnet perėjo prie optimizmo ir signalizuoja apie artėjančią pagrindinio tinklo migraciją
Vasaris 9, 2026
„Tether“ paskelbė apie strategines investicijas į „t-0“ tinklą, skirtą USD₮ valdomos mokėjimų infrastruktūros plėtrai.
Naujienų ataskaita Technologija
„Tether“ paskelbė apie strategines investicijas į „t-0“ tinklą, skirtą USD₮ valdomos mokėjimų infrastruktūros plėtrai.
Vasaris 6, 2026
„BitMart“ kortelė plečia savo pasaulinę aprėptį daugiau nei 115 šalių ir pristato 2026 m. privalumus su iki 5.5 % pinigų grąžinimu ir daugiau nei 300 USD metinių apdovanojimų
Naujienų ataskaita
„BitMart“ kortelė plečia savo pasaulinę aprėptį daugiau nei 115 šalių ir pristato 2026 m. privalumus su iki 5.5 % pinigų grąžinimu ir daugiau nei 300 USD metinių apdovanojimų
Vasaris 6, 2026
„Roblox“ pristato 4D kartos technologiją su „Cube AI“, leidžiančią kūrėjams kurti interaktyvius objektus iš tekstinių raginimų.
Naujienų ataskaita Technologija
„Roblox“ pristato 4D kartos technologiją su „Cube AI“, leidžiančią kūrėjams kurti interaktyvius objektus iš tekstinių raginimų.
Vasaris 6, 2026
CRYPTOMERIA LABS PTE. LTD.