דיווח חדשות טכנולוגיה
ספטמבר 19, 2023

דגם Würstchen V2 מנצח Stable Diffusion XL עם מהירות מרשימה ליצירת תמונות ברזולוציה גבוהה

ציוץ לאחרונה מאת מחבר מאמר שכותרתו "Würstchen" (בגרמנית "נקניק") משך את תשומת לבם של חובבים ומומחים כאחד. הציוץ שיתף את התוצאות המסקרנות של יצירת תמונות באמצעות דגם Würstchen V2 החדש.

דגם Würstchen V2 מנצח Stable Diffusion XL עם מהירות מרשימה ליצירת תמונות ברזולוציה גבוהה
מוצרים מקושרים: Midjourney 5.2 ו Stable Diffusion עדכוני SDXL 0.9 ליצירת טקסט לתמונה

Würstchen הוא מהיר ויעיל, מייצר תמונות מהר יותר מאשר דגמים כמו Stable Diffusion XL תוך שימוש בפחות זיכרון. יש לו גם עלויות אימון מופחתות, כאשר Würstchen v1 דורש רק 9,000 שעות GPU של אימון ברזולוציות 512×512, בהשוואה ל-150,000 שעות GPU שהושקעו ב Stable Diffusion 1.4. הפחתה של פי 16 בעלויות לא רק מועילה לחוקרים שעורכים ניסויים חדשים אלא גם פותחת את הדלת לארגונים נוספים להכשיר מודלים כאלה. Würstchen v2 השתמש ב-24,602 שעות GPU, מה שהפך אותו לזול פי 6 מ-SD1.4, שהוכשר רק ב-512×512.

תכונה בולטת שתפסה מיד את עין קהילת הבינה המלאכותית היא המהירות המרשימה של Würstchen V2. לדברי המחבר, יצירת ארבע תמונות בגודל 1024×2048 באמצעות מודל זה נמשכת 7 שניות בלבד. כדי לשים את זה בפרספקטיבה, דגם ה-SDXL ידרוש 40 שניות איטיות יחסית כדי להשיג את אותה משימה.

Würstchen V1, שהוצג בעבר, חולק את היסוד שלו עם SDXL כסמוי מודל דיפוזיה אך משלבת ארכיטקטורת Unet מהירה יותר. מכיוון שהקהילה צופה בשקיקה לפרטים נוספים על הארכיטקטורה של Würstchen V2, המהירות המשופרת לבדה מסמנת אותו כהתפתחות ראויה לציון.

Würstchen V2 הוא א מודל דיפוזיה שעובד במרחב סמוי דחוס מאוד של תמונות, ומפחית עלויות חישוביות לאימון והסקת מסקנות בסדרי גודל. הוא משתמש בעיצוב חדשני המשיג דחיסה מרחבית פי 42, הישג שלא נראה בעבר. Würstchen משתמשת בדחיסה דו-שלבית, Stage A ו-Stage B, המפענחת תמונות דחוסות בחזרה לחלל הפיקסלים. מודל שלישי, שלב C, נלמד במרחב הסמוי הדחוס ביותר, הדורש חלקים מהמחשב המשמש למודלים הנוכחיים בעלי הביצועים הטובים ביותר, תוך שהוא מאפשר הסקה זולה ומהירה יותר.

Würstchen V2 כולל שני שלבי דיפוזיה:

  • שלב א': שלב זה כולל דיפוזיה מותנית בטקסט ומתגאה במיליארד פרמטרים מדהימים. התאוצה כאן מושגת באמצעות טכניקות דחיסה גבוהות במיוחד. יש לציין שבמקום גודל הקוד הנסתר של 1x128x128, כפי שניתן לראות ב-SDXL, Würstchen V4 פועל בתחילה ברזולוציה של 2x24x24. משמעות הדבר היא פחות פיקסלים אך יותר ערוצים, וכתוצאה מכך להגברת מהירות משמעותית.
  • שלב ב': זהו דגם דיפוזיה המצויד ב-600 מיליון פרמטרים, האחראי על פירוק התמונה מ-24×24 לרזולוציה של 128×128.

משלים את התהליך מפענח עם 20 מיליון פרמטרים שהופך את הקוד הנסתר לתמונה מעובדת.

היתרון הפרקטי שבולט מיד הוא המהירות המדהימה של Würstchen V2. הוא פועל במהירות הגבוהה פי 2-2.5 מ-SDXL, התקדמות ראויה לציון בתחום של יצירת תמונות בינה מלאכותית.

כמו בכל חידוש טכנולוגי, ייתכנו פשרות. מבחינת איכות התמונה, כמה מומחים מציעים הפסד קל, אם כי עדיין ממתינים להשוואה מקיפה וכנה כדי לספק ראיות קונקרטיות.

להלן דוגמאות מטקסט לתמונה שנוצרו:

קרא עוד נושאים קשורים:

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

מאמרים נוספים
דמיר יללוב
דמיר יללוב

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

Hot Stories
הצטרף לניוזלטר שלנו.
חדשות אחרונות

התיאבון המוסדי גדל לקראת תעודות סל של ביטקוין על רקע תנודתיות

גילויים באמצעות הגשת 13F חושפים משקיעים מוסדיים בולטים שמתעסקים בתעודות סל של ביטקוין, מה שמדגיש הסכמה גוברת של ...

יודע יותר

יום גזר הדין מגיע: גורלה של CZ באיזון כאשר בית המשפט האמריקני שוקל את הטענה של DOJ

צ'אנגפנג ג'או עומד היום בפני גזר דין בבית משפט אמריקאי בסיאטל.

יודע יותר
הצטרף לקהילת הטכנולוגיה החדשנית שלנו
למידע נוסף
קראו עוד
המעבר של דונלד טראמפ לקריפטו: מיריב לעורך דין, ומה זה אומר על שוק המטבעות הקריפטוגרפיים בארה"ב
עסקים שוקי סיפורים וסקירות טכנולוגיה
המעבר של דונלד טראמפ לקריפטו: מיריב לעורך דין, ומה זה אומר על שוק המטבעות הקריפטוגרפיים בארה"ב
מאי 10, 2024
Layer3 להשיק אסימון L3 בקיץ הקרוב, תוך הקצאת 51% מסך האספקה ​​לקהילה
שוקי דיווח חדשות טכנולוגיה
Layer3 להשיק אסימון L3 בקיץ הקרוב, תוך הקצאת 51% מסך האספקה ​​לקהילה
מאי 10, 2024
האזהרה האחרונה של אדוארד סנודן למפתחי ביטקוין: "הפוך את הפרטיות לעדיפות ברמת הפרוטוקול או הסיכון לאבד אותה
שוקי אבטחה Wiki תוכנה סיפורים וסקירות טכנולוגיה
האזהרה האחרונה של אדוארד סנודן למפתחי ביטקוין: "הפוך את הפרטיות לעדיפות ברמת הפרוטוקול או הסיכון לאבד אותה
מאי 10, 2024
רשת Ethereum Layer 2 מונעת אופטימיות תשיק את הרשת המרכזית שלה ב-15 במאי
דיווח חדשות טכנולוגיה
רשת Ethereum Layer 2 מונעת אופטימיות תשיק את הרשת המרכזית שלה ב-15 במאי
מאי 10, 2024
CRYPTOMERIA LABS PTE. בע"מ.