Ulat sa Balita Teknolohiya
Setyembre 28, 2023

Inilabas ng Meta ang 'Emu' para Pahusayin ang AI Image Generation

Sa madaling sabi

Ang Meta AI ay nakabuo ng isang paraan upang mapabuti ang mga modelo ng pagbuo ng imahe gamit ang mga photogenic na karayom ​​sa isang haystack.

Ang proseso ay nagsasangkot ng pre-training ng isang diffusion model sa isang malawak na dataset, gamit ang mga text encoder upang makamit ang isang resolution na 1024×1024 pixels.

Ang dataset ay sumasailalim sa malawak na pag-filter, na may kadalubhasaan ng tao sa pagtanggal ng mga subpar na larawan.

Emu: Makabagong Diskarte ng Meta AI para Pahusayin ang Mga Modelo sa Pagbuo ng Larawan

Ang Meta AI kamakailan ay nagbahagi nito pananaliksik na papel nagdedetalye ng isang nobelang diskarte na binuo upang mapahusay ang pagbuo ng mga sticker at larawan sa loob ng mga serbisyo nito. Ang papel, na may pamagat na "Emu: Pagpapahusay ng Mga Modelo sa Pagbuo ng Larawan Gamit ang mga Photogenic Needles sa isang Haystack,” ay naglalayong ipakita kung paano ang isang paraan ng pagsasanay na “naiayon sa kalidad” ay maaaring makabuluhang itaas ang kalidad ng pagbuo ng larawan — kahit na sa isang maliit na dataset.

kay Meta Paraan ng Pre-Training at Mga Detalye ng Modelo

Kasama sa paunang yugto ang pre-training ng diffusion model gamit ang isang malawak na dataset na binubuo ng 1.1 bilyong pares ng imahe-text mula sa mga panloob na mapagkukunan ng Meta AI. Ang yugto ay umaasa sa isang U-Net na modelo na may mabigat na 2.8 bilyong mga parameter. Ang mga text encoder, partikular ang CLIP ViT-L at T5-XXL, ay ginagamit kasabay ng modelo. Ang pinakalayunin ng modelo ay bumuo ng isang imahe, 1024×1024 pixels sa resolution.

Ang dataset ng modelo ay sumasailalim sa mahigpit na pag-filter, na nag-aalis ng higit sa 200,000 mga sample mula sa isang pool ng higit sa isang bilyong mga halimbawa. Maramihang mga filter, kabilang ang mga classifier na nagtatasa ng aesthetics ng imahe, mga mekanismo para sa pagtatapon ng hindi kanais-nais na nilalaman, optical character recognition (OCR) para sa pagbubukod ng text-heavy na mga imahe, at resolution at proportion-based na pag-filter, ay inilalapat. Ang mga sukatan ng kasikatan, gaya ng mga gusto, ay nakakaimpluwensya rin sa proseso ng pagsasala.

kaugnay: Inilabas ng Meta ang Pagsasama-sama ng AI sa Mga Serbisyo, mula sa Generative Emu Model hanggang sa Smart Glasses

Sa yugtong ito, ang kadalubhasaan ng tao ay nasa gitna ng yugto. Ang mga generalist, mga indibidwal na nagtataglay ng komprehensibong kaalaman sa data annotation, ay tinatasa ang natitirang 200,000 mga larawan at nag-iipon ng isang subset ng 20,000. Ang pangunahing layunin dito ay tukuyin at alisin ang mga makabuluhang subpar na larawan kung sakaling mapatunayang hindi sapat ang heuristics na ginamit sa naunang hakbang.

Inilabas ng Meta ang 'Emu' para Pahusayin ang AI Image Generation
kaugnay: Ipinakilala ng Meta ang 28 AI Character at AI Studio para sa Pinalawak na Pagkamalikhain

Ang Kahusayan sa Pagbuo ng Larawan ni Emu

Ang isang pangkat ng mga espesyalista sa photography, na may mataas na kaalaman sa mga prinsipyo ng photographic, ay nagsasagawa ng gawain ng pag-filter at pagpili ng mga larawan. Ang kanilang layunin ay kilalanin at mapanatili ang mga larawang may pinakamataas na kalidad ng aesthetic. Maingat nilang isinasaalang-alang ang mga salik gaya ng komposisyon, pag-iilaw, mga scheme ng kulay, mga kaibahan, kaugnayan sa paksa, at mga background.

Kasama sa huling pagpindot ang masusing paggawa ng mga de-kalidad na text annotation para sa na-curate na dataset na ito ng 2,000 pares ng imahe-text.

Panghuli, nagsasanay ang modelo sa pinong dataset na ito, na kumukumpleto ng 15,000 hakbang na may laki ng batch na 64. Ang laki ng batch na ito ay medyo maliit kumpara sa malaki generative na mga modelo. Bagama't ang modelo ay maaaring mukhang overtrained batay sa pagkawala ng pagpapatunay, ang mga pagsusuri ng tao ay nagpapahiwatig ng iba. Ang isang katulad na kababalaghan ay naobserbahan sa mga modelo ng wika.

Sa pamamagitan ng orchestrated multi-stage na proseso na ito, nakakamit ng Meta AI ang mataas na kalidad pagbuo ng imahe. Ang pamamaraang ito ay hindi lamang naglalayong pahusayin ang mga praktikal na benepisyo ng kanilang mga serbisyo ngunit binibigyang-diin din ang kahalagahan ng maingat na curation at kadalubhasaan ng tao sa pagpino ng nilalamang binuo ng AI. Para sa karagdagang detalye, maaari mong tuklasin ang kumpletong artikulo.

Inilabas ng Meta ang 'Emu' para Pahusayin ang AI Image Generation
Isang halimbawa ng henerasyon para sa parehong mga senyas. Sa kaliwa ay ang modelo pagkatapos ng hakbang 1 (iyon ay, pretrain lang, nang hindi kinakalikot ang data), at sa kanan ay pagkatapos na dumaan sa lahat ng mga pamamaraan.
Inilabas ng Meta ang 'Emu' para Pahusayin ang AI Image Generation
Inilabas ng Meta ang 'Emu' para Pahusayin ang AI Image Generation

Magbasa ng higit pang mga kaugnay na paksa:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Ang Kalmado Bago Ang Bagyo ng Solana: Ano ang Sinasabi Ngayon ng mga Chart, Whale, At On-Chain Signal

Ang Solana ay nagpakita ng malakas na pagganap, na hinihimok ng pagtaas ng pag-aampon, interes sa institusyon, at pangunahing pakikipagsosyo, habang nahaharap sa potensyal ...

Malaman Higit Pa

Crypto Noong Abril 2025: Mga Pangunahing Trend, Pagbabago, At Ano ang Susunod

Noong Abril 2025, ang crypto space ay nakatuon sa pagpapalakas ng pangunahing imprastraktura, kasama ang Ethereum na naghahanda para sa Pectra ...

Malaman Higit Pa
Magbasa Pa
Magbasa nang higit pa
Pananaw sa Bitcoin sa Kalagitnaan ng Pebrero: Negatibo ang Pondo, Kulang ang Demand sa Spot
Ulat sa Balita Teknolohiya
Pananaw sa Bitcoin sa Kalagitnaan ng Pebrero: Negatibo ang Pondo, Kulang ang Demand sa Spot
Pebrero 16, 2026
Inilabas ng Qwen ang Bagong Modelo ng Wikang Pananaw upang Isulong ang Coding, Reasoning, at Multimodal AI Performance
Ulat sa Balita Teknolohiya
Inilabas ng Qwen ang Bagong Modelo ng Wikang Pananaw upang Isulong ang Coding, Reasoning, at Multimodal AI Performance
Pebrero 16, 2026
Onchain Perpetual Futures: Pagsasara ng Agwat sa Pagitan ng CeFi at DeFi Para sa mga Institusyonal na Mangangalakal
Ulat sa Balita Teknolohiya
Onchain Perpetual Futures: Pagsasara ng Agwat sa Pagitan ng CeFi at DeFi Para sa mga Institusyonal na Mangangalakal
Pebrero 16, 2026
OpenAI: GPT‑5.2 Nagbubuo at Nagpapatunay ng Bagong Pormula sa Unang Pagsulong sa Pisika ng AI
Ulat sa Balita Teknolohiya
OpenAI: GPT‑5.2 Nagbubuo at Nagpapatunay ng Bagong Pormula sa Unang Pagsulong sa Pisika ng AI
Pebrero 16, 2026
CRYPTOMERIA LABS PTE. LTD.