דיווח חדשות טכנולוגיה
17 בנובמבר 2022

Nvidia הכריזה על eDiff-I: AI יצירתי חדש לסינתזת טקסט ותמונה עם העברה מיידית של סגנונות

בקיצור

Nvidia משיקה את eDiff-I כדי לעזור לעסקים ליצור תמונות איכותיות ומושכות

טכניקת eDiff-I מייצרת באופן קבוע איכות סינתזה גבוהה יותר מאשר DALL-E2 ו Stable diffusion

eDiff-I הוא כלי חדש ליצירת תוכן בינה מלאכותית מספק יכולות סינתזה חסרות תקדים של טקסט לתמונה עבור משווקים ועסקים, כפי שהוכרז לאחרונה על ידי Nvidia. עם eDiff-I, עסקים יכולים ליצור במהירות ובקלות תמונות ויזואליות איכותיות ומושכות ללא צורך בציוד יקר או עזרה מקצועית. eDiff-I משתמש בעיבוד שפה טבעית (NLP) כדי לפרש את הקלט של המשתמש וליצור תמונות מתאימות. לאחר מכן ה-AI מנתח את התמונות ובוחר את התמונות המתאימה ביותר בהתבסס על ההקשר. התוצאה היא תמונה איכותית במראה מקצועי שניתן להשתמש בה למגוון מטרות כמו חומרים שיווקיים, פוסטים ברשתות חברתיות, קמפיינים במייל ועוד.

eDiff-I הוא א הדור הבא בינה מלאכותית כלי ליצירת תוכן המספק חסר תקדים טקסט לתמונה סינתזה, העברת סגנון מהירה וציור אינטואיטיבי עם מילים. כמודל דיפוזיה ליצירת ויז'ואלים מטקסט, eDiff-I מציע להכשיר אנסמבל של רשתות מומחים לדיפוזיה, כל אחת מתמחה עבור מרווח רעש מסוים, בתגובה לממצא האמפירי שהתנהגות מודלים דיפוזיה משתנה בשלבים שונים של הדגימה.

Nvidia הכריזה על eDiff-I: AI יצירתי חדש לסינתזת טקסט ותמונה עם העברה מיידית של סגנונות

הטמעות טקסט T5, הטבעות תמונה CLIP והטבעות טקסט CLIP מספקות את הבסיס לקונספט eDiff-I. מתודולוגיה זו יכולה לייצר גרפיקה פוטוריאליסטית בתגובה לכל שאילתת טקסט.

הוא מציג שתי יכולות נוספות בנוסף לסינתזה של טקסט לתמונה: (1) העברת סגנון, המאפשרת לנו לשלוט בסגנון הדוגמה שנוצרה באמצעות תמונה בסגנון התייחסות, ו-(2) "צייר עם מילים", כלי המאפשר למשתמשים ליצור תמונות על ידי ציור מפות פילוח על קנבס.

צינור
צינור

הצינור מורכב ממפל של שלושה דגמי דיפוזיה: מודל בסיס שיכול ליצור דגימות ברזולוציה של 64×64 ושתי ערימות ברזולוציה-על שיכולות לדגום את התמונות בהדרגה לרזולוציות של 256×256 ו-1024×1024, בהתאמה. מודלים מחשבים T5 XXL והטמעת טקסט לאחר קבלת כיתוב כקלט. הטמעות תמונות אלו עשויות לשמש כווקטור של סגנון. לאחר מכן, הזינו את ההטמעות הללו לתוך המדורג שלנו מודלים של דיפוזיה, אשר מייצרים בהדרגה תמונות ברזולוציה של 1024 x 1024.

גישת eDiff-I מביאה באופן עקבי לאיכות סינתזה טובה יותר בהשוואה לאלגוריתמי טקסט לתמונה בקוד פתוח (Stable diffusion) ו- (DALL-E2).

תוצאות
תוצאות

כאשר משתמשים בהטמעות תמונת CLIP, גישת eDiff-I מקלה על העברת סגנון. eDiff-I מחלץ תחילה את CLIP הטבעות תמונה מתמונת סגנון התייחסות, שניתן להשתמש בה בתור וקטור התייחסות לסגנון. ניתן לראות התייחסות סגנונית באיור למטה בחלונית השמאלית. התוצאות כאשר מיזוג סגנון מופעל מוצגות בחלונית המרכזית. התוצאות כאשר מיזוג הסגנון כבוי מוצגות בחלונית מימין. כאשר מוחל התניה בסגנון, מודל eDiff-I יוצר פלטים שנכונים גם לסגנון של כיתוב הקלט. כאשר מיזוג הסגנון כבוי, נוצרות תמונות בעלות מראה טבעי.

העברת סגנון
העברת סגנון

על ידי בחירת ביטויים ושרבוטם על התמונה, משתמשים בשיטת eDiff-I יכולים לשנות את המיקום של הדברים הרשומים בהנחיית הטקסט. לאחר מכן, המודל משתמש ב- הנחיה והמפות ליצירת תמונות התואמים גם לכיתוב וגם למפת הקלט.

קרא מאמרים קשורים:

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

מאמרים נוספים
דמיר יללוב
דמיר יללוב

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

Hot Stories
הצטרף לניוזלטר שלנו.
חדשות אחרונות

יום גזר הדין מגיע: גורלה של CZ באיזון כאשר בית המשפט האמריקני שוקל את הטענה של DOJ

צ'אנגפנג ג'או עומד היום בפני גזר דין בבית משפט אמריקאי בסיאטל.

יודע יותר

מייסדי ארנק סמוראי הואשמו בהנחיית 2 מיליארד דולר בעסקאות Darknet

החשש של מייסדי ארנק סמוראי מייצג כישלון בולט עבור התעשייה, המדגיש את ...

יודע יותר
הצטרף לקהילת הטכנולוגיה החדשנית שלנו
למידע נוסף
קראו עוד
Pantera Capital משקיעה ב-TON Blockchain, מביעה אמון בפוטנציאל של טלגרם להרחיב את נגישות הקריפטו
עסקים דיווח חדשות טכנולוגיה
Pantera Capital משקיעה ב-TON Blockchain, מביעה אמון בפוטנציאל של טלגרם להרחיב את נגישות הקריפטו
מאי 2, 2024
מיטוזיס מגייסת מימון של 7 מיליון דולר מקבוצת Amber ומיזמי Foresight כדי לקדם את פרוטוקול הנזילות המודולרי שלה
עסקים דיווח חדשות טכנולוגיה
מיטוזיס מגייסת מימון של 7 מיליון דולר מקבוצת Amber ומיזמי Foresight כדי לקדם את פרוטוקול הנזילות המודולרי שלה
מאי 2, 2024
Galxe משתפת פעולה עם Jambo כדי להרחיב את הנגישות הגלובלית ל Web3
עסקים דיווח חדשות טכנולוגיה
Galxe משתפת פעולה עם Jambo כדי להרחיב את הנגישות הגלובלית ל Web3
מאי 2, 2024
ה-Med-Gemini של גוגל מוכנה לתת ראש בראש GPT-4 עם ביצועים מעולים בתחום הבריאות
AI Wiki חֲדָשׁוֹת תוכנה טכנולוגיה
ה-Med-Gemini של גוגל מוכנה לתת ראש בראש GPT-4 עם ביצועים מעולים בתחום הבריאות
מאי 2, 2024
CRYPTOMERIA LABS PTE. בע"מ.