דיווח חדשות
במרץ 20, 2023

דגם טקסט לתמונה חדש GigaGAN יכול ליצור תמונות 4K ב-3.66 שניות

בקיצור

חוקרים פיתחו מודל טקסט לתמונה חדש בשם GigaGAN שיכול ליצור תמונות 4K ב-3.66 שניות.

הוא מבוסס על מסגרת GAN (רשת יריבות יצירתית), שהיא סוג של רשת עצבית שיכולים ללמוד לייצר נתונים הדומים למערך נתונים של אימון. GigaGAN מסוגלת ליצור תמונות של 512 פיקסלים ב-0.13 שניות, פי 10 מהר יותר מהדגם החדיש הקודם, ויש לה מרחב סמוי מפורק, רציף וניתן לשליטה.

זה יכול לשמש גם כדי להכשיר דגימה יעילה ואיכותית יותר.

חוקרים פיתחו מודל חדש של טקסט לתמונה בשם GigaGAN שיכול ליצור תמונות 4K תוך 3.66 שניות. זהו שיפור משמעותי בהשוואה למודלים קיימים של טקסט לתמונה, שיכול לקחת דקות או אפילו שעות ליצור תמונה בודדת.

דגם הטקסט לתמונה החדש GigaGAN יכול ליצור תמונות 4K ב-3.66 שניות

GigaGAN מבוססת על מסגרת ה-GAN (generative adversarial network), שהיא סוג של רשת עצבית שיכולה ללמוד לייצר נתונים הדומים למערך נתונים אימון. נעשה שימוש ב-GAN ליצירת תמונות ריאליסטיות של פרצופים, נופים ואפילו תמונות Street View.

קרא עוד: 5+ דגמי הבינה המלאכותית של טקסט לתמונה הצפויים ביותר לשנת 2023

המודל החדש הוכשר על מערך נתונים של מיליארד תמונות, שהוא גדול בסדרי גודל מערכי הנתונים ששימשו לאימון מודלים קודמים של טקסט לתמונה. כתוצאה מכך, GigaGAN מסוגלת ליצור תמונות של 1 פיקסלים ב-512 שניות, שזה יותר מפי 0.13 מהר יותר מדגם הטקסט לתמונה המתקדם והמתקדם.

בנוסף, GigaGAN מגיע עם מרחב סמוי מפורק, רציף וניתן לשליטה. המשמעות היא ש-GigaGAN יכול ליצור תמונות בעלות מגוון סגנונות שונים, ושניתן לשלוט בתמונות שנוצרו במידה מסוימת. לדוגמה, GigaGAN יכול ליצור תמונות המשמרות את הפריסה של קלט הטקסט, שהיא חשובה ליישומים, למשל, בעת יצירת תמונות של פריסות מוצרים מתיאורי טקסט.

ניתן להשתמש ב-GigaGAN גם כדי להכשיר דגימה יעילה ואיכותית יותר. ניתן להחיל זאת על תמונות אמיתיות או על פלטים של אחרים מודלים של טקסט לתמונה.

ענף קידוד טקסט, רשת מיפוי סגנונות, רשת סינתזה מרובת קנה מידה ותשומת לב יציבה ובחירת ליבה אדפטיבית הם כולם חלק ממחולל GigaGAN. מפתחים מתחילים את ענף קידוד הטקסט על ידי חילוץ הטמעות טקסט עם מודל CLIP מיומן מראש ולמדו שכבות קשב T. בדומה ל StyleGAN, ההטמעה מועברת לרשת מיפוי הסגנון M, שיוצרת את וקטור הסגנון w. כדי ליצור פירמידת תמונה, רשת הסינתזה משתמשת כעת בקוד הסגנון כאפנון ובהטמעות הטקסט כתשומת לב. יתרה מזאת, מפתחים מציגים בחירת ליבה מותאמת לדוגמה לבחירת ליבות קונבולציה בצורה אדפטיבית על סמך התניה של טקסט קלט.

למבדיל, כמו המחולל, יש שני ענפים לעיבוד התניית התמונה והטקסט. ענף הטקסט, כמו המחולל, מעבד טקסט. ענף התמונות מקבל פירמידת תמונה ועליו מוטלת המשימה לבצע תחזיות עצמאיות עבור כל סולם תמונה. יתר על כן, ניבויים נעשים בכל קנה המידה של שכבות הדגימה שלאחר מכן. הפסדים נוספים משמשים גם לעידוד התכנסות יעילה.

כפי שמוצג ברשת האינטרפולציה, GigaGAN מאפשר אינטרפולציה חלקה בין הנחיות. ארבע הפינות נוצרות באמצעות אותו z סמוי אך הנחיות טקסט שונות.

מכיוון ש-GigaGAN משמר מרחב סמוי מפורק, מפתחים יכולים לשלב את הסגנון הגס של דגימה אחת עם הסגנון העדין של אחר. GigaGAN יכול גם לשלוט בסגנון ישירות באמצעות הנחיות טקסט.

קרא עוד מאמרים קשורים:

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

מאמרים נוספים
דמיר יללוב
דמיר יללוב

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

Hot Stories
הצטרף לניוזלטר שלנו.
חדשות אחרונות

יום גזר הדין מגיע: גורלה של CZ באיזון כאשר בית המשפט האמריקני שוקל את הטענה של DOJ

צ'אנגפנג ג'או עומד היום בפני גזר דין בבית משפט אמריקאי בסיאטל.

יודע יותר

מייסדי ארנק סמוראי הואשמו בהנחיית 2 מיליארד דולר בעסקאות Darknet

החשש של מייסדי ארנק סמוראי מייצג כישלון בולט עבור התעשייה, המדגיש את ...

יודע יותר
הצטרף לקהילת הטכנולוגיה החדשנית שלנו
למידע נוסף
קרא עוד
Pantera Capital משקיעה ב-TON Blockchain, מביעה אמון בפוטנציאל של טלגרם להרחיב את נגישות הקריפטו
עסקים דיווח חדשות טכנולוגיה
Pantera Capital משקיעה ב-TON Blockchain, מביעה אמון בפוטנציאל של טלגרם להרחיב את נגישות הקריפטו
מאי 2, 2024
מיטוזיס מגייסת מימון של 7 מיליון דולר מקבוצת Amber ומיזמי Foresight כדי לקדם את פרוטוקול הנזילות המודולרי שלה
עסקים דיווח חדשות טכנולוגיה
מיטוזיס מגייסת מימון של 7 מיליון דולר מקבוצת Amber ומיזמי Foresight כדי לקדם את פרוטוקול הנזילות המודולרי שלה
מאי 2, 2024
Galxe משתפת פעולה עם Jambo כדי להרחיב את הנגישות הגלובלית ל Web3
עסקים דיווח חדשות טכנולוגיה
Galxe משתפת פעולה עם Jambo כדי להרחיב את הנגישות הגלובלית ל Web3
מאי 2, 2024
חבר המועצה המחוקקת של הונג קונג Wu Jiezhuang מאותתת תביעה אזרחית נגד JPEX Crypto Exchange
עסקים דיווח חדשות טכנולוגיה
חבר המועצה המחוקקת של הונג קונג Wu Jiezhuang מאותתת תביעה אזרחית נגד JPEX Crypto Exchange
מאי 2, 2024
CRYPTOMERIA LABS PTE. בע"מ.