דיווח חדשות טכנולוגיה
ינואר 24, 2023

GLIGEN: דגם חדש ליצירת טקסט לתמונה קפוא עם תיבה תוחמת

בקיצור

GLIGEN, או Grounded-Language-to-Image Generation, היא טכניקה חדשה שמתבססת על ומרחיבה את היכולת של מודלים נוכחיים של דיפוזיה שהוכשרו מראש.

עם כניסות של תנאי כיתוב ותיבה תוחמת, מודל GLIGEN יוצר text2img מקורקע בעולם פתוח.

GLIGEN יכולה ליצור מגוון אובייקטים במקומות ובסגנונות ספציפיים על ידי מינוף ידע ממודל text2img מאומן מראש.

GLIGEN עשויה גם לקרקע נקודות מפתח אנושיות תוך יצירת טקסט לתמונות.

מודלים של פיזור טקסט לתמונה בקנה מידה גדול עברו כברת דרך. עם זאת, הנוהג הנוכחי הוא להסתמך אך ורק על קלט טקסט, מה שיכול להגביל את יכולת השליטה. גליגן, או Grounded-Language-to-Image Generation, היא טכניקה חדשה שמתבססת על ומרחיבה את היכולת של מודלים נוכחיים מאומנים מראש של דיפוזיה של טקסט לתמונה בכך שהיא מאפשרת להתנות אותם בכניסות הארקה.

GLIGEN: דגם חדש ליצירת טקסט לתמונה קפוא עם תיבה תוחמת

כדי לשמור על הידע הרחב של המודל המאומן מראש, מפתחים מקפיאים את כל המשקולות שלו ומשאבים את מידע הארקה לשכבות טריות הניתנות לאימון באמצעות תהליך מבוקר. עם כניסות של תנאי כיתוב ותיבה תוחמת, מודל GLIGEN מייצר טקסט לתמונה מקורקע בעולם פתוח, ויכולת הארקה מכללה ביעילות לתצורות ומושגים מרחביים חדשים.

בדוק הדגמה כאן.

GLIGEN מבוססת על מודלים קיימים של דיפוזיה מאומנים מראש, שהמשקולות המקוריות שלהם הוקפאו כדי לשמור על כמויות אדירות של ידע שהוכשר מראש.
  • GLIGEN מבוסס על הכשרה קיימת מודלים של דיפוזיה, המשקולות המקוריות שלהן הוקפאו כדי לשמור על כמויות אדירות של ידע שהוכשר מראש.
  • בכל בלוק שנאי נוצרת שכבת קשב עצמית מגודרת חדשה הניתנת לאימון כדי לספוג קלט הארקה נוסף.
  • לכל אסימון הארקה יש שני סוגים של מידע: מידע סמנטי על הדבר המבוסס (טקסט או תמונה מקודד) ומידע על מיקום מרחבי (תיבה תוחמת מקודדת או נקודות מפתח).
כתבות קשורות: VToonify: מודל AI בזמן אמת להפקת סרטוני דיוקן אומנותיים
שכבות מאופנות חדשות שנוספו מאומנות מראש באופן רציף על נתוני הארקה מסיביים (תיבה-תמונה-טקסט), שהיא חסכונית יותר משיטות חלופיות של שימוש במודל דיפוזיה מיומן מראש, כמו כוונון עדין של דגם מלא. בדומה ללגו, ניתן לחבר ולהוציא שכבות מאומנות שונות כדי לאפשר יכולות חדשות שונות.
שכבות מווסתות שנוספו לאחרונה עוברות הכשרה מראש ברציפות על נתוני הארקה מסיביים (תיבה-תמונה-טקסט). זה חסכוני יותר משיטות אלטרנטיביות של שימוש במכשיר מאומן מראש מודל דיפוזיה, כגון כוונון עדין של דגם מלא. בדומה ללגו, ניתן לחבר ולהוציא שכבות מאומנות שונות כדי לאפשר יכולות חדשות שונות.
GLIGEN תומך בדגימה מתוזמנת בתהליך הדיפוזיה להסקה, כאשר המודל יכול לבחור באופן דינמי להשתמש באסימוני הארקה (על ידי הוספת השכבה החדשה) או במודל הדיפוזיה המקורי עם קדם טוב (על ידי הוצאת השכבה החדשה), ובכך לאזן את איכות היצירה ויכולת הארקה.
GLIGEN תומך בדגימה מתוזמנת בתהליך הדיפוזיה להסקה, כאשר המודל יכול לבחור באופן דינמי להשתמש באסימוני הארקה (על ידי הוספת השכבה החדשה) או במודל הדיפוזיה המקורי עם קדם טוב (על ידי הוצאת השכבה החדשה), ובכך לאזן את איכות היצירה ויכולת הארקה.
GLIGEN יכולה ליצור מגוון אובייקטים במקומות ובסגנונות ספציפיים על ידי מינוף ידע ממודל text2img מאומן מראש.
GLIGEN יכולה ליצור מגוון אובייקטים במקומות ובסגנונות ספציפיים על ידי מינוף ידע ממודל text2img מאומן מראש.
כתבות קשורות: מיקרוסופט פרסמה מודל דיפוזיה שיכול לבנות אווטאר תלת מימד מתמונה בודדת של אדם
ניתן לאמן את GLIGEN גם באמצעות תמונות עזר.
ניתן לאמן את GLIGEN גם באמצעות תמונות עזר. השורה העליונה מציעה שתצלומי עיון, בנוסף לתיאורים כתובים, יכולים לספק מאפיינים עדינים יותר כמו סגנון וצורה של המכונית. השורה השנייה מדגימה שניתן להשתמש בתמונת רפרנס גם כתמונת סגנון, ובמקרה זה אנו מגלים שהארקה אותה לפינה או בקצה של תמונה מספיקה.
GLIGEN, כמו דגמי דיפוזיה אחרים, יכול לבצע צביעת תמונה מקורקעת, שיכולה ליצור אובייקטים התואמים באופן הדוק לתיבות התוחמות שסופקו.
GLIGEN, כמו דגמי דיפוזיה אחרים, יכול לבצע צביעת תמונה מקורקעת, שיכולה ליצור אובייקטים התואמים באופן הדוק לתיבות התוחמות שסופקו.
GLIGEN עשויה גם לקרקע נקודות מפתח אנושיות תוך יצירת טקסט לתמונות.
GLIGEN עשויה גם לקרקע נקודות מפתח אנושיות בזמן יצירת טקסט לתמונות.

קרא עוד על AI:

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

מאמרים נוספים
דמיר יללוב
דמיר יללוב

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

Hot Stories
הצטרף לניוזלטר שלנו.
חדשות אחרונות

התיאבון המוסדי גדל לקראת תעודות סל של ביטקוין על רקע תנודתיות

גילויים באמצעות הגשת 13F חושפים משקיעים מוסדיים בולטים שמתעסקים בתעודות סל של ביטקוין, מה שמדגיש הסכמה גוברת של ...

יודע יותר

יום גזר הדין מגיע: גורלה של CZ באיזון כאשר בית המשפט האמריקני שוקל את הטענה של DOJ

צ'אנגפנג ג'או עומד היום בפני גזר דין בבית משפט אמריקאי בסיאטל.

יודע יותר
הצטרף לקהילת הטכנולוגיה החדשנית שלנו
למידע נוסף
קראו עוד
Injective מאחדת כוחות עם AltLayer כדי להביא אבטחה מחדש ל-inEVM
עסקים דיווח חדשות טכנולוגיה
Injective מאחדת כוחות עם AltLayer כדי להביא אבטחה מחדש ל-inEVM
מאי 3, 2024
מאסה משתפת פעולה עם Teller כדי להציג את מאגר ההלוואות של MASA, מאפשרת הלוואות ב-USDC על בסיס
שוקי דיווח חדשות טכנולוגיה
מאסה משתפת פעולה עם Teller כדי להציג את מאגר ההלוואות של MASA, מאפשרת הלוואות ב-USDC על בסיס
מאי 3, 2024
Velodrome משיקה את גרסת הבטא של Superchain בשבועות הקרובים ומתרחבת ברחבי OP Stack Layer 2 Blockchains
שוקי דיווח חדשות טכנולוגיה
Velodrome משיקה את גרסת הבטא של Superchain בשבועות הקרובים ומתרחבת ברחבי OP Stack Layer 2 Blockchains
מאי 3, 2024
CARV מכריזה על שותפות עם Aethir לביזור שכבת הנתונים שלה ולחלוקת תגמולים
עסקים דיווח חדשות טכנולוגיה
CARV מכריזה על שותפות עם Aethir לביזור שכבת הנתונים שלה ולחלוקת תגמולים
מאי 3, 2024
CRYPTOMERIA LABS PTE. בע"מ.