דיווח חדשות טכנולוגיה
23 בנובמבר 2022

Sber AI הציגה את קנדינסקי 2.0, המודל הראשון של טקסט לתמונה להפקה ביותר מ-100 שפות

בקיצור

Kandinsky 2.0, מודל הדיפוזיה הרב-לשוני הראשון, נוצר והוכשר על ידי חוקרי בינה מלאכותית של Sber בסיוע חוקרים ממכון AI לבינה מלאכותית תוך שימוש במערך הנתונים המשולב של מיליארד זוגות טקסט-תמונה מ-Sber AI ו-SberDevices

דיפוזיה מחליפה יותר ויותר GANs ומודלים אוטורגרסיביים במספר משימות עיבוד תמונה דיגיטליות. זה לא מפתיע מכיוון שהדיפוזיה קלה יותר ללמידה, אינה דורשת מבחר מורכב של היפרפרמטרים, אופטימיזציה של min-max, ואינה סובלת מאי יציבות למידה. והכי חשוב, מודלים של דיפוזיה מדגימים תוצאות מתקדמות כמעט בכל המשימות היצירתיות - יצירת תמונה לפי טקסט, הפקת קול, וידאו ואפילו 3D.

Sber AI הציגה את קנדינסקי 2.0, המודל הראשון של טקסט לתמונה להפקה ביותר מ-100 שפות
התמונה שנוצרה על ידי Kandinsky AI

למרבה הצער, רוב העבודה בתחום הטקסט-למשהו מתמקדת רק באנגלית ובסינית. כדי לתקן את העוול הזה, Sber AI החליט ליצור מודל דיפוזי טקסט לתמונה רב לשוני Kandinsky 2.0, שמבין שאילתות ביותר מ-100 שפות. חיבוק פנים כבר מציע את קנדינסקי 2.0. חוקרים מ-SberAI ו-SberDevices שיתף פעולה עם מומחים ממכון הבינה המלאכותית לבינה מלאכותית בפרויקט זה.

מה זה דיפוזיה?

במאמר 2015 למידה עמוקה ללא פיקוח באמצעות תרמודינמיקה ללא שיווי משקל, מודלים של דיפוזיה תוארו לראשונה כפעולה של ערבוב חומר וכתוצאה מכך דיפוזיה, המשווה את ההתפלגות. כפי שמרמזת כותרת המאמר, הם ניגשו להסבר של מודלים דיפוזיה דרך המסגרת של התרמודינמיקה.

במקרה של תמונות, תהליך כזה עשוי להידמות, למשל, להסרה הדרגתית של רעש גאוס מהתמונה.

נייר דיפוזיה מודלים להכות GANs on Image Synthesis, שפורסם בשנת 2021, היה הראשון שהראה את עליונותם של מודלים דיפוזיה על פני GANS. המחברים גם המציאו את גישת הבקרה של הדור הראשון (התניה), שאותה קראו להנחיית מסווג. שיטה זו יוצרת אובייקטים המתאימים למחלקה המיועדת באמצעות מעברי צבע ממסווג אחר (לדוגמה, כלבים). באמצעות מנגנון Adaptive Group Norm, הכולל חיזוי של מקדמי נורמליזציה, מתבצעת הבקרה עצמה.

ניתן לראות במאמר זה נקודת מפנה בתחום ה-AI הגנרטיבי, מה שמוביל רבים לפנות לחקר הדיפוזיה. מאמרים חדשים על טקסט לווידאו, טקסט לתלת מימד, תמונה צביעה, יצירת אודיו, דיפוזיה עבור רזולוציית על, ואפילו יצירת תנועה החלה להופיע כל כמה שבועות.

פיזור טקסט לתמונה

כפי שהזכרנו קודם לכן, הפחתת רעש וביטול רעש הם בדרך כלל המרכיבים העיקריים של תהליכי דיפוזיה בהקשר של אופני תמונה, כך ש-UNet והווריאציות הרבות שלו משמשות לעתים קרובות כארכיטקטורה הבסיסית.

פיזור טקסט לתמונה
פיזור טקסט לתמונה

חיוני שטקסט זה יילקח בחשבון בדרך כלשהי במהלך הדור כדי ליצור תמונה המבוססת עליו. מחברי ה OpenAI מאמר על מודל GLIDE הציע לשנות את גישת ההדרכה ללא מסווג עבור טקסט.

השימוש במקודדי טקסט מוקפאים מראש ומנגנון שיפור רזולוציית המפל בעתיד שיפר משמעותית את ייצור הטקסט (תמונה). התברר שאין צורך להכשיר את חלק הטקסט של מודלים של טקסט לתמונה שכן השימוש ב-T5-xxl הקפוא הביא לשיפור ניכר באיכות התמונה והבנת הטקסט והשתמש בהרבה פחות משאבי אימון.

מחברי א דיפוזיה סמויה המאמר הוכיח שמרכיב התמונה למעשה אינו דורש הכשרה (לפחות לא לגמרי). הלמידה תתקדם אפילו יותר מהר אם נשתמש במקודד תמונה רב עוצמה (VQ-VAE או KL-VAE) כמפענח חזותי וננסה ליצור הטבעות מהמרחב הסמוי שלו על ידי דיפוזיה ולא התמונה עצמה. מתודולוגיה זו היא גם הבסיס של התוכנית שפורסמה לאחרונה Stable Diffusion מודל.

דגם קנדינסקי 2.0 AI

עם כמה שיפורים עיקריים, Kandinsky 2.0 מבוסס על טכניקת פיזור סמוי משופר (איננו יוצרים תמונות, אלא הווקטורים הסמויים שלהן):

  • הפעיל שני מקודדי טקסט רב לשוניים ושרשר את ההטמעות שלהם.
  • נוסף UNet (1.2 מיליארד פרמטרים).
  • הליך דגימה סף דינמי.
דגם קנדינסקי 2.0 AI
דגם קנדינסקי 2.0 AI

חוקרים השתמשו בשני מקודדים רב לשוניים בו זמנית - XLMR-clip ו-mT5-small - על מנת להפוך את מודל ממש רב לשוני. לכן, בנוסף לאנגלית, רוסית, צרפתית וגרמנית, המודל יכול להבין גם שפות כמו מונגולית, עברית ופרסית. ה-AI יודע בסך הכל 101 שפות. מדוע הוחלט לקודד טקסט באמצעות שני מודלים בו זמנית? מכיוון ש-XLMR-clip ראה תמונות ומספק הטמעות קרובות לשפות שונות, ו-mT5-small מסוגל להבין טקסטים מורכבים, למודלים הללו יש תכונות שונות אך קריטיות. מכיוון שלשני הדגמים יש רק מספר קטן של פרמטרים (560M ו-146M), כפי שהדגימו הבדיקות המקדימות שלנו, הוחלט להשתמש בשני מקודדים בו זמנית.

תמונות שנוצרו לאחרונה על ידי דגם קנדינסקי 2.0 AI למטה:

כיצד בוצע הכשרת דגם קנדינסקי 2.0?

מחשבי העל של Christofari שימשו לאימון בפלטפורמת ML Space. הוא דרש 196 כרטיסי NVIDIA A100, כל אחד עם 80 GB של זיכרון RAM. זה לקח 14 ימים, או 65,856 שעות GPU, כדי להשלים את ההכשרה. הניתוח ארך חמישה ימים ברזולוציה של 256×256, ולאחר מכן שישה ימים ברזולוציה של 512×512, ולאחר מכן שלושה ימים נוספים על הנתונים הטהורים ביותר.

כנתוני אימון, שולבו מערכי נתונים רבים שסוננו מראש עבור סימני מים, רזולוציה נמוכה והיצמדות נמוכה לתיאור הטקסט כפי שנמדד על ידי מדד ציון CLIP.

דור רב לשוני

Kandinsky 2.0 הוא המודל הרב-לשוני הראשון ליצירת תמונות ממילים, נותן לנו את ההזדמנות הראשונה להעריך שינויים לשוניים וחזותיים בין תרבויות שפה. התוצאות של תרגום אותה שאילתה למספר שפות מוצגות להלן. לדוגמה, רק גברים לבנים מופיעים בתוצאות הדור עבור השאילתה הרוסית "אדם עם השכלה גבוהה", בעוד שהתוצאות עבור התרגום לצרפתית, "Photo d'une personne diplômée de l'enseignement supérieur", מגוונות יותר. אני רוצה לציין שהאנשים העצובים בעלי השכלה גבוהה נמצאים רק במהדורה בשפה הרוסית.

דור רב לשוני
הנחיה: השודד (1. רוסית, 2. אנגלית, 3. הינדית)
דור רב לשוני
הנחיה: אדם בעל השכלה גבוהה (1. רוסית, 2. צרפתית, 3. סינית)
דור רב לשוני
הנחיה: מאכל לאומי (1. רוסית, 2. יפנית, 3. הינדית)

למרות שמתוכננים עדיין המון ניסויים עם מודלים עצומים של שפה ושיטות שונות של תהליך הדיפוזיה, אנחנו כבר יכולים לקבוע בביטחון שקנדינסקי 2.0 הוא מודל ההפצה הרב-לשוני הראשון לחלוטין! על אתר FusionBrain ו גוגל קולאב, אולי תראה דוגמאות לציורים שלה.

קרא עוד על AI:

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

מאמרים נוספים
דמיר יללוב
דמיר יללוב

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

Hot Stories
הצטרף לניוזלטר שלנו.
חדשות אחרונות

יום גזר הדין מגיע: גורלה של CZ באיזון כאשר בית המשפט האמריקני שוקל את הטענה של DOJ

צ'אנגפנג ג'או עומד היום בפני גזר דין בבית משפט אמריקאי בסיאטל.

יודע יותר

מייסדי ארנק סמוראי הואשמו בהנחיית 2 מיליארד דולר בעסקאות Darknet

החשש של מייסדי ארנק סמוראי מייצג כישלון בולט עבור התעשייה, המדגיש את ...

יודע יותר
הצטרף לקהילת הטכנולוגיה החדשנית שלנו
למידע נוסף
קרא עוד
Pantera Capital משקיעה ב-TON Blockchain, מביעה אמון בפוטנציאל של טלגרם להרחיב את נגישות הקריפטו
עסקים דיווח חדשות טכנולוגיה
Pantera Capital משקיעה ב-TON Blockchain, מביעה אמון בפוטנציאל של טלגרם להרחיב את נגישות הקריפטו
מאי 2, 2024
מיטוזיס מגייסת מימון של 7 מיליון דולר מקבוצת Amber ומיזמי Foresight כדי לקדם את פרוטוקול הנזילות המודולרי שלה
עסקים דיווח חדשות טכנולוגיה
מיטוזיס מגייסת מימון של 7 מיליון דולר מקבוצת Amber ומיזמי Foresight כדי לקדם את פרוטוקול הנזילות המודולרי שלה
מאי 2, 2024
Galxe משתפת פעולה עם Jambo כדי להרחיב את הנגישות הגלובלית ל Web3
עסקים דיווח חדשות טכנולוגיה
Galxe משתפת פעולה עם Jambo כדי להרחיב את הנגישות הגלובלית ל Web3
מאי 2, 2024
ה-Med-Gemini של גוגל מוכנה לתת ראש בראש GPT-4 עם ביצועים מעולים בתחום הבריאות
AI Wiki חֲדָשׁוֹת תוכנה טכנולוגיה
ה-Med-Gemini של גוגל מוכנה לתת ראש בראש GPT-4 עם ביצועים מעולים בתחום הבריאות
מאי 2, 2024
CRYPTOMERIA LABS PTE. בע"מ.