Ulat sa Balita Teknolohiya
Hunyo 19, 2023

SnapFusion: Mabilis na Text-to-Image na Modelo para sa Mga Mobile Device sa loob ng 1.9 Segundo

Sa madaling sabi

Binabago ng SnapFusion ang paglikha ng nilalaman sa pamamagitan ng pagtakbo mga modelo ng pagsasabog ng text-to-image direkta sa mga mobile device, binabawasan ang mga gastos at pagtugon sa mga alalahanin sa privacy.

SnapFusion ay isang text-to-image AI model na nagbibigay-daan sa mga user na makabuo ng mga nakamamanghang larawan mula sa mga natural na paglalarawan ng wika, lahat sa loob ng dalawang segundo lamang sa kanilang mga mobile device. Wala na ang mga araw ng pag-asa sa mga high-end na GPU o cloud-based na serbisyo upang patakbuhin ang mga kumplikadong modelong ito. Ang SnapFusion ay nagde-demokratize ng paglikha ng nilalaman sa pamamagitan ng paglalagay ng kapangyarihan ng pagsasabog ng text-to-image sa mga kamay ng mga user.

SnapFusion: Mabilis at Mahusay na Text-to-Image na Modelo para sa Mga Mobile Device sa loob ng 1.9 Segundo
Pinasasalamatan: Midjourney / lili10292#2100

Ang paglikha ng mga makatotohanang larawan mula sa mga paglalarawan ng teksto ay palaging isang mapaghamong gawain. Mga nakaraang modelo nangangailangan ng malalaking arkitektura ng network at maramihang denoising na mga pag-ulit, na ginagawa ang mga ito computationally mahal at mabagal. Higit pa rito, ang pagpapatakbo ng mga modelong ito ay kadalasang nagsasangkot ng pagpapadala ng data ng user sa mga serbisyo ng third-party, pagtataas mga alalahanin sa privacy.

Upang matugunan ang mga hamong ito, ang mga tagalikha ng SnapFusion ay bumuo ng isang mahusay na arkitektura ng network at pinahusay ang hakbang na proseso ng distillation. Sa pamamagitan ng pagtukoy ng mga redundancies sa orihinal na modelo, ipinakilala nila ang isang mahusay na UNet at binawasan ang pag-compute ng image decoder sa pamamagitan ng paglilinis ng data. Bukod pa rito, pinahusay nila ang hakbang na distillation sa pamamagitan ng paggalugad ng mga diskarte sa pagsasanay at pagpapakilala ng mga diskarte sa regularization.

arxiv.org/pdf/2306.00980.pdf

Malawak na mga eksperimento sa dataset ng MS-COCO ipinakita ang kahusayan ng SnapFusion. Sa pamamagitan lamang ng walong denoising na hakbang, nakamit ng SnapFusion ang mas mahusay na mga marka ng FID at CLIP kumpara sa nakaraang makabagong modelo, Stable Diffusion v1.5, na nangangailangan ng 50 hakbang. Ang kahanga-hangang pagpapabuti sa kahusayan at pagganap ay nagbubukas ng mga bagong posibilidad para sa paglikha ng nilalaman.

Ang epekto ng SnapFusion ay higit pa sa mga teknikal na tagumpay nito. Sa pamamagitan ng pagtakbo mga modelo ng pagsasabog ng text-to-image direkta sa mga mobile device, inaalis nito ang pangangailangan para sa mga mamahaling GPU at cloud-based na serbisyo. Hindi lamang nito binabawasan ang mga gastos ngunit tinutugunan din ang mga alalahanin sa privacy na nauugnay sa pagpapadala ng data ng user sa mga third party. Maaari na ngayong ilabas ng mga user ang kanilang pagkamalikhain at bumuo ng mga de-kalidad na larawan habang naglalakbay.

Ang laki ng parameter ng modelo ay maaaring higit pang bawasan upang gawin itong tugma sa iba't ibang mga aparato sa gilid. Bukod pa rito, ang pag-optimize ng modelo para sa iba't ibang mga mobile device makamit ang mabilis na hinuha Ang bilis ay isang patuloy na paksa ng pananaliksik.

Mahalagang gamitin ang SnapFusion at mga katulad na teknolohiya nang responsable upang maiwasan ang mga nakakahamak na application. Maaaring magsagawa ng mga hakbang, gaya ng mga awtomatikong sistema ng pag-detect na tumutukoy at nagba-flag ng nilalaman ng larawan na lumalabag sa mga regulasyon. Sa pamamagitan ng pagkakaroon ng balanse sa pagitan ng pagbabago at etikal na pagsasaalang-alang, maaaring baguhin ng SnapFusion ang paglikha ng nilalaman habang tinitiyak ang isang ligtas at responsableng karanasan ng user.

Magbasa pa tungkol sa AI:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Ang mga pagsisiwalat sa pamamagitan ng 13F filing ay nagpapakita ng mga kilalang institusyonal na mamumuhunan na nakikipag-ugnayan sa mga Bitcoin ETF, na binibigyang-diin ang lumalaking pagtanggap ng ...

Malaman Higit Pa

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
Ang LD Capital, Antalpha Ventures at Highblock Limited ay Nagsanib-puwersa Upang Ilunsad ang $128M Hong Kong ETF Liquidity Fund
Negosyo markets Ulat sa Balita
Ang LD Capital, Antalpha Ventures at Highblock Limited ay Nagsanib-puwersa Upang Ilunsad ang $128M Hong Kong ETF Liquidity Fund
Mayo 8, 2024
Inside Wall Street Memes (WSM): Unveiling the Headlines
Negosyo markets Mga Kuwento at Pagsusuri Teknolohiya
Inside Wall Street Memes (WSM): Unveiling the Headlines
Mayo 7, 2024
Tuklasin ang Crypto Whales: Sino ang Sino sa Market
Negosyo markets Mga Kuwento at Pagsusuri Teknolohiya
Tuklasin ang Crypto Whales: Sino ang Sino sa Market
Mayo 7, 2024
Ang Orbiter Finance ay Nakipagsosyo Sa Bitcoin Layer 2 Zulu Network At Nag-deploy Sa Is Lwazi Testnet
Negosyo Ulat sa Balita Teknolohiya
Ang Orbiter Finance ay Nakipagsosyo Sa Bitcoin Layer 2 Zulu Network At Nag-deploy Sa Is Lwazi Testnet 
Mayo 7, 2024
CRYPTOMERIA LABS PTE. LTD.