Inilabas ng Meta ang 'Emu' para Pahusayin ang AI Image Generation
Sa madaling sabi
Ang Meta AI ay nakabuo ng isang paraan upang mapabuti ang mga modelo ng pagbuo ng imahe gamit ang mga photogenic na karayom sa isang haystack.
Ang proseso ay nagsasangkot ng pre-training ng isang diffusion model sa isang malawak na dataset, gamit ang mga text encoder upang makamit ang isang resolution na 1024×1024 pixels.
Ang dataset ay sumasailalim sa malawak na pag-filter, na may kadalubhasaan ng tao sa pagtanggal ng mga subpar na larawan.

Ang Meta AI kamakailan ay nagbahagi nito pananaliksik na papel nagdedetalye ng isang nobelang diskarte na binuo upang mapahusay ang pagbuo ng mga sticker at larawan sa loob ng mga serbisyo nito. Ang papel, na may pamagat na "Emu: Pagpapahusay ng Mga Modelo sa Pagbuo ng Larawan Gamit ang mga Photogenic Needles sa isang Haystack,” ay naglalayong ipakita kung paano ang isang paraan ng pagsasanay na “naiayon sa kalidad” ay maaaring makabuluhang itaas ang kalidad ng pagbuo ng larawan — kahit na sa isang maliit na dataset.
kay Meta Paraan ng Pre-Training at Mga Detalye ng Modelo
Kasama sa paunang yugto ang pre-training ng diffusion model gamit ang isang malawak na dataset na binubuo ng 1.1 bilyong pares ng imahe-text mula sa mga panloob na mapagkukunan ng Meta AI. Ang yugto ay umaasa sa isang U-Net na modelo na may mabigat na 2.8 bilyong mga parameter. Ang mga text encoder, partikular ang CLIP ViT-L at T5-XXL, ay ginagamit kasabay ng modelo. Ang pinakalayunin ng modelo ay bumuo ng isang imahe, 1024×1024 pixels sa resolution.
Ang dataset ng modelo ay sumasailalim sa mahigpit na pag-filter, na nag-aalis ng higit sa 200,000 mga sample mula sa isang pool ng higit sa isang bilyong mga halimbawa. Maramihang mga filter, kabilang ang mga classifier na nagtatasa ng aesthetics ng imahe, mga mekanismo para sa pagtatapon ng hindi kanais-nais na nilalaman, optical character recognition (OCR) para sa pagbubukod ng text-heavy na mga imahe, at resolution at proportion-based na pag-filter, ay inilalapat. Ang mga sukatan ng kasikatan, gaya ng mga gusto, ay nakakaimpluwensya rin sa proseso ng pagsasala.
Sa yugtong ito, ang kadalubhasaan ng tao ay nasa gitna ng yugto. Ang mga generalist, mga indibidwal na nagtataglay ng komprehensibong kaalaman sa data annotation, ay tinatasa ang natitirang 200,000 mga larawan at nag-iipon ng isang subset ng 20,000. Ang pangunahing layunin dito ay tukuyin at alisin ang mga makabuluhang subpar na larawan kung sakaling mapatunayang hindi sapat ang heuristics na ginamit sa naunang hakbang.

Ang Kahusayan sa Pagbuo ng Larawan ni Emu
Ang isang pangkat ng mga espesyalista sa photography, na may mataas na kaalaman sa mga prinsipyo ng photographic, ay nagsasagawa ng gawain ng pag-filter at pagpili ng mga larawan. Ang kanilang layunin ay kilalanin at mapanatili ang mga larawang may pinakamataas na kalidad ng aesthetic. Maingat nilang isinasaalang-alang ang mga salik gaya ng komposisyon, pag-iilaw, mga scheme ng kulay, mga kaibahan, kaugnayan sa paksa, at mga background.
Kasama sa huling pagpindot ang masusing paggawa ng mga de-kalidad na text annotation para sa na-curate na dataset na ito ng 2,000 pares ng imahe-text.
Panghuli, nagsasanay ang modelo sa pinong dataset na ito, na kumukumpleto ng 15,000 hakbang na may laki ng batch na 64. Ang laki ng batch na ito ay medyo maliit kumpara sa malaki generative na mga modelo. Bagama't ang modelo ay maaaring mukhang overtrained batay sa pagkawala ng pagpapatunay, ang mga pagsusuri ng tao ay nagpapahiwatig ng iba. Ang isang katulad na kababalaghan ay naobserbahan sa mga modelo ng wika.
Sa pamamagitan ng orchestrated multi-stage na proseso na ito, nakakamit ng Meta AI ang mataas na kalidad pagbuo ng imahe. Ang pamamaraang ito ay hindi lamang naglalayong pahusayin ang mga praktikal na benepisyo ng kanilang mga serbisyo ngunit binibigyang-diin din ang kahalagahan ng maingat na curation at kadalubhasaan ng tao sa pagpino ng nilalamang binuo ng AI. Para sa karagdagang detalye, maaari mong tuklasin ang kumpletong artikulo.


Magbasa ng higit pang mga kaugnay na paksa:
Pagtanggi sa pananagutan
Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.
Tungkol sa Ang May-akda
Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.
Mas marami pang artikulo
Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.