Xəbər Hesabatı Texnologiya
Yanvar 24, 2023

GLIGEN: məhdudlaşdırıcı qutu ilə yeni dondurulmuş mətndən şəkilə generasiya modeli

Qısaca

GLIGEN və ya Yerləşdirilmiş Dildən Şəkil Nəsil, hazırkı əvvəlcədən öyrədilmiş diffuziya modellərinin imkanlarını quran və genişləndirən yeni bir texnikadır.

Başlıq və məhdudlaşdırıcı qutu vəziyyəti daxiletmələri ilə GLIGEN modeli açıq dünyada əsaslandırılmış text2img yaradır.

GLIGEN əvvəlcədən hazırlanmış text2img modelindən biliklərdən istifadə etməklə xüsusi yerlərdə və üslublarda müxtəlif obyektlər yarada bilər.

GLIGEN mətndən-şəkillərə çevirərkən insan əsas nöqtələrini də əsaslandıra bilər.

Böyük miqyaslı mətndən şəkilə diffuziya modelləri uzun bir yol keçmişdir. Bununla belə, mövcud təcrübə yalnız mətn daxiletməsinə etibar etməkdir ki, bu da idarəolunanlığı məhdudlaşdıra bilər. QLIGEN, və ya Grounded-Language-to-Image Generation, hazırkı əvvəlcədən öyrədilmiş mətndən-şəklə diffuziya modellərinin imkanlarını əsaslandıran və onları əsaslandırma girişlərinə şərtləndirməyə imkan verən yeni texnikadır.

GLIGEN: məhdudlaşdırıcı qutu ilə yeni dondurulmuş mətndən şəkilə generasiya modeli

Əvvəlcədən öyrədilmiş modelin geniş konseptual biliklərini saxlamaq üçün tərtibatçılar onun bütün çəkilərini dondurur və idarə olunan proses vasitəsilə torpaqlama məlumatını yeni öyrədilə bilən təbəqələrə pompalayır. Başlıq və məhdudlaşdırıcı qutu vəziyyəti daxiletmələri ilə GLIGEN modeli açıq dünyada əsaslandırılmış mətndən-şəklə yaradır və torpaqlama qabiliyyəti yeni məkan konfiqurasiyaları və konsepsiyaları üçün effektiv şəkildə ümumiləşdirir.

Həyata edin demo burada.

GLIGEN, əvvəlcədən hazırlanmış çoxlu bilikləri saxlamaq üçün orijinal çəkiləri dondurulmuş mövcud əvvəlcədən hazırlanmış diffuziya modellərinə əsaslanır.
  • GLIGEN mövcud əvvəlcədən hazırlanmış təlimlərə əsaslanır diffuziya modelləri, ilkin çəkiləri əvvəlcədən hazırlanmış böyük miqdarda bilikləri saxlamaq üçün dondurulmuşdur.
  • Hər bir transformator blokunda əlavə torpaqlama girişini qəbul etmək üçün yeni öyrədilə bilən Qapalı Özünə Diqqət təbəqəsi yaradılır.
  • Hər bir torpaqlama nişanı iki növ məlumatdan ibarətdir: əsaslanmış şey haqqında semantik məlumat (şifrələnmiş mətn və ya şəkil) və məkan mövqeyi məlumatı (şifrələnmiş sərhəd qutusu və ya əsas nöqtələr).
Əlaqədar məqalə: VToonify: Bədii portret videoları yaratmaq üçün real vaxtda AI modeli
Yeni əlavə edilmiş modulyasiya edilmiş təbəqələr davamlı olaraq kütləvi torpaqlama məlumatları (şəkil-mətn qutusu) üzrə əvvəlcədən öyrədilir ki, bu, tam model incə tənzimləmə kimi əvvəlcədən hazırlanmış diffuziya modelindən istifadənin alternativ üsullarından daha səmərəlidir. Lego kimi, müxtəlif təlim keçmiş təbəqələr müxtəlif yeni imkanlara imkan vermək üçün qoşulub çıxarıla bilər.
Yeni əlavə edilmiş modullaşdırılmış təbəqələr davamlı olaraq kütləvi torpaqlama məlumatları (şəkil-mətn qutusu) üzrə əvvəlcədən öyrədilir. Bu, əvvəlcədən öyrədilmiş üsullardan istifadənin alternativ üsullarından daha səmərəlidir diffuziya modeli, məsələn, tam model incə tənzimləmə. Lego kimi, müxtəlif təlim keçmiş təbəqələr müxtəlif yeni imkanlara imkan vermək üçün qoşulub çıxarıla bilər.
GLIGEN, nəticə çıxarmaq üçün diffuziya prosesində planlaşdırılmış seçməni dəstəkləyir, burada model dinamik olaraq əsaslandırma nişanlarından (yeni təbəqə əlavə etməklə) və ya orijinal diffuziya modelindən yaxşı əvvəlki (yeni təbəqəni çıxarmaqla) istifadə etmək üçün seçə bilər və beləliklə, nəsil keyfiyyətini balanslaşdırır. və torpaqlama qabiliyyəti.
GLIGEN, nəticə çıxarmaq üçün diffuziya prosesində planlaşdırılmış seçməni dəstəkləyir, burada model dinamik olaraq əsaslandırma nişanlarından (yeni təbəqə əlavə etməklə) və ya orijinal diffuziya modelindən yaxşı əvvəlki (yeni təbəqəni çıxarmaqla) istifadə etmək üçün seçə bilər və beləliklə, nəsil keyfiyyətini balanslaşdırır. və torpaqlama qabiliyyəti.
GLIGEN əvvəlcədən hazırlanmış text2img modelindən biliklərdən istifadə etməklə xüsusi yerlərdə və üslublarda müxtəlif obyektlər yarada bilər.
GLIGEN əvvəlcədən hazırlanmış text2img modelindən biliklərdən istifadə etməklə xüsusi yerlərdə və üslublarda müxtəlif obyektlər yarada bilər.
Əlaqədar məqalə: “Microsoft” şirkəti insanın tək bir fotosundan 3D avatar yarada bilən diffuziya modeli buraxıb
GLIGEN həmçinin istinad şəkillərindən istifadə etməklə öyrədilə bilər.
GLIGEN həmçinin istinad şəkillərindən istifadə etməklə öyrədilə bilər. Üst cərgədə istinad fotoşəkillərinin yazılı təsvirlərə əlavə olaraq, avtomobilin üslubu və forması kimi daha incə dənəli xüsusiyyətləri təmin edə biləcəyini göstərir. İkinci sıra göstərir ki, istinad təsviri həm də stil təsviri kimi istifadə oluna bilər, bu halda biz onu təsvirin küncünə və ya kənarına əsaslandırmağın kifayət etdiyini aşkar edirik.
GLIGEN, digər diffuziya modelləri kimi, təchiz olunmuş sərhəd qutularına yaxından uyğun gələn obyektləri yarada bilən əsaslı təsvirin rənglənməsini həyata keçirə bilər.
GLIGEN, digər diffuziya modelləri kimi, təchiz olunmuş sərhəd qutularına yaxından uyğun gələn obyektləri yarada bilən əsaslı təsvirin rənglənməsini həyata keçirə bilər.
GLIGEN mətndən-şəkillərə çevirərkən insan əsas nöqtələrini də əsaslandıra bilər.
GLIGEN insan əsas nöqtələrini də əsaslandıra bilər mətndən şəkillərə yaratmaq.

AI haqqında daha çox oxuyun:

Məsuliyyətdən imtina

uyğun olaraq Güvən Layihəsi qaydaları, lütfən nəzərə alın ki, bu səhifədə təqdim olunan məlumat hüquqi, vergi, investisiya, maliyyə və ya hər hansı digər məsləhət forması kimi təfsir edilməməlidir və təfsir edilməməlidir. Yalnız itirə biləcəyiniz şeyə investisiya qoymaq və hər hansı bir şübhəniz varsa, müstəqil maliyyə məsləhətləri axtarmaq vacibdir. Əlavə məlumat üçün biz emitent və ya reklamçı tərəfindən təmin edilən şərtlər və şərtlərə, həmçinin yardım və dəstək səhifələrinə müraciət etməyi təklif edirik. MetaversePost dəqiq, qərəzsiz hesabat verməyə sadiqdir, lakin bazar şərtləri xəbərdarlıq edilmədən dəyişdirilə bilər.

Müəllif haqqında

Damir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi. 

Ətraflı məqalələr
Damir Yalalov
Damir Yalalov

Damir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi. 

İnstitusional iştah dəyişkənlik fonunda Bitcoin ETF-lərə doğru artır

13F sənədləri vasitəsilə edilən açıqlamalar, Bitcoin ETF-ləri ilə məşğul olan görkəmli institusional investorları ortaya qoyur və bu, artan qəbulu vurğulayır ...

Daha çox məlumat

Hökm günü gəldi: ABŞ Məhkəməsi DOJ-nin iddiasını nəzərdən keçirərkən CZ-nin taleyi tarazlıqda qalır

Changpeng Zhao bu gün Sietldəki ABŞ məhkəməsində hökm oxumağa hazırlaşır.

Daha çox məlumat
İnnovativ Texniki İcmamıza Qoşulun
Daha çox oxu
Daha çox oxu
Injective inEVM-ə Yenidən Təhlükəsizliyi Gətirmək üçün AltLayer ilə Gücləri Birləşdirir
Biznes Xəbər Hesabatı Texnologiya
Injective inEVM-ə Yenidən Təhlükəsizliyi Gətirmək üçün AltLayer ilə Gücləri Birləşdirir
3 May 2024
Masa, MASA Kredit Hövzəsini təqdim etmək üçün Teller ilə Birləşir, Bazada USDC Borc Almağa imkan verir
Markets Xəbər Hesabatı Texnologiya
Masa, MASA Kredit Hövzəsini təqdim etmək üçün Teller ilə Birləşir, Bazada USDC Borc Almağa imkan verir
3 May 2024
Velodrome qarşıdakı həftələrdə Superchain Beta Versiyasını işə salır və OP Stack Layer 2 Blockchain-də genişlənir
Markets Xəbər Hesabatı Texnologiya
Velodrome qarşıdakı həftələrdə Superchain Beta Versiyasını işə salır və OP Stack Layer 2 Blockchain-də genişlənir
3 May 2024
CARV, məlumat təbəqəsini mərkəzləşdirməmək və mükafatları yaymaq üçün Aethir ilə tərəfdaşlıq elan edir
Biznes Xəbər Hesabatı Texnologiya
CARV, məlumat təbəqəsini mərkəzləşdirməmək və mükafatları yaymaq üçün Aethir ilə tərəfdaşlıq elan edir
3 May 2024
CRYPTOMERIA LABS PTE. LTD.