GLIGEN: דגם חדש ליצירת טקסט לתמונה קפוא עם תיבה תוחמת
בקיצור
GLIGEN, או Grounded-Language-to-Image Generation, היא טכניקה חדשה שמתבססת על ומרחיבה את היכולת של מודלים נוכחיים של דיפוזיה שהוכשרו מראש.
עם כניסות של תנאי כיתוב ותיבה תוחמת, מודל GLIGEN יוצר text2img מקורקע בעולם פתוח.
GLIGEN יכולה ליצור מגוון אובייקטים במקומות ובסגנונות ספציפיים על ידי מינוף ידע ממודל text2img מאומן מראש.
GLIGEN עשויה גם לקרקע נקודות מפתח אנושיות תוך יצירת טקסט לתמונות.
מודלים של פיזור טקסט לתמונה בקנה מידה גדול עברו כברת דרך. עם זאת, הנוהג הנוכחי הוא להסתמך אך ורק על קלט טקסט, מה שיכול להגביל את יכולת השליטה. גליגן, או Grounded-Language-to-Image Generation, היא טכניקה חדשה שמתבססת על ומרחיבה את היכולת של מודלים נוכחיים מאומנים מראש של דיפוזיה של טקסט לתמונה בכך שהיא מאפשרת להתנות אותם בכניסות הארקה.
כדי לשמור על הידע הרחב של המודל המאומן מראש, מפתחים מקפיאים את כל המשקולות שלו ומשאבים את מידע הארקה לשכבות טריות הניתנות לאימון באמצעות תהליך מבוקר. עם כניסות של תנאי כיתוב ותיבה תוחמת, מודל GLIGEN מייצר טקסט לתמונה מקורקע בעולם פתוח, ויכולת הארקה מכללה ביעילות לתצורות ומושגים מרחביים חדשים.
בדוק הדגמה כאן.
- GLIGEN מבוסס על הכשרה קיימת מודלים של דיפוזיה, המשקולות המקוריות שלהן הוקפאו כדי לשמור על כמויות אדירות של ידע שהוכשר מראש.
- בכל בלוק שנאי נוצרת שכבת קשב עצמית מגודרת חדשה הניתנת לאימון כדי לספוג קלט הארקה נוסף.
- לכל אסימון הארקה יש שני סוגים של מידע: מידע סמנטי על הדבר המבוסס (טקסט או תמונה מקודד) ומידע על מיקום מרחבי (תיבה תוחמת מקודדת או נקודות מפתח).
כתבות קשורות: VToonify: מודל AI בזמן אמת להפקת סרטוני דיוקן אומנותיים |
קרא עוד על AI:
כתב ויתור
בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.
על המחבר
דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.
מאמרים נוספיםדמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.