דיווח חדשות טכנולוגיה
ינואר 24, 2023

VToonify: מודל AI בזמן אמת להפקת סרטוני דיוקן אומנותיים

בקיצור

מסגרת VToonify מהפכנית פותחה על ידי מפתחים כדי לספק העברות מבוקרות, ברזולוציה גבוהה של סגנון וידאו דיוקן.

כדי לייצר פורטרטים אמנותיים מדהימים, המסגרת עושה שימוש בשכבות ברזולוציה בינונית וגבוהה של StyleGAN.

זה מאפשר הרחבה של קיים מבוסס StyleGAN דגמי הצגת תמונה לווידאו.

חוקרים מהאוניברסיטה הטכנולוגית נאניאנג הציג מסגרת חדשה של VToonify ליצירת העברת סגנון וידאו דיוקן ברזולוציה גבוהה הניתנת לשליטה. VToonify ממנפת את שכבות הרזולוציה הבינונית והגבוהה של StyleGAN כדי להציג דיוקנאות אמנותיים באיכות גבוהה המבוססת על תכונות התוכן בקנה מידה רב שחולץ על ידי מקודד כדי לשמר טוב יותר את פרטי המסגרת. תוצאות ניסויים מראות שהמסגרת שלנו יכולה ליצור סרטונים באיכות גבוהה והבעות פנים רצויות ללא צורך ביישור פנים או הגבלות על גודל פריים.

כתוצאה מכך, ארכיטקטורה קונבולוציונית לחלוטין המקבלת פנים לא מיושרות בסרטונים בגדלים שונים מייצרת פרצופים שלמים עם תנועות אורגניות. מסגרת VToonify יורשת תכונות מושכות של דגמים אלה לשליטה בסגנון גמיש על צבע ועוצמה. זה תואם לדגמי הצגת תמונות קיימים מבוססי StyleGAN כדי להרחיב אותם להצגת וידאו. עבודה זו מציגה שני מופעים של VToonify להעברת סגנון וידאו דיוקן מבוסס אוסף ומבוסס על דוגמה, בהתאמה, הבנויה על Toonify ו- DualStyleGAN.

Vtoonify: מודל AI בזמן אמת להפקת סרטוני דיוקן אומנותיים

ממצאים ניסיוניים נרחבים מראים שהמסגרת המוצעת של VToonify עולה על גישות מתחרות בהפקת סרטי דיוקן אמנותיים עם בקרות סגנון מתכווננות שהן באיכות מעולה ובעקביות זמנית. חשבון GitHub לקבלת פרטים נוספים.

כתבות קשורות: OpenAI עובד על יצירת מודל AI לווידאו

על מנת לספק העברת סגנון וידאו דיוקן ברזולוציה גבוהה הניתנת לשליטה, VToonify משלבת את היתרונות של מסגרת תרגום התמונה והמסגרת מבוססת StyleGAN.

(א) כדי לתמוך בגודל קלט משתנה, מערכת תרגום תמונות משתמשת ברשתות קונבולוציוניות לחלוטין. זה מאתגר להקנות סגנון מבוקר ברזולוציה גבוהה, בכל זאת, כאשר מלמדים מאפס.

(ב) מסגרת מבוססת StyleGAN, התומכת רק בגודל תמונה קבוע ואיבודי פרטים, משתמשת במודל StyleGAN המאומן מראש להעברת סגנון ברזולוציה גבוהה וניתנת לשליטה.

(ג) על מנת ליצור ארכיטקטורת מחולל-קודד קונבולוציונית הדומה לזו של מסגרת תרגום התמונה, המערכת ההיברידית שלנו מרחיבה את StyleGAN על ידי מחיקת תכונת הקלט בגודל קבוע ושכבות ברזולוציה נמוכה.

על מנת לשמר את פרטי המסגרת, מפתחים מאמנים מקודד לחלץ תכונות תוכן מרובות קנה מידה ממסגרת הקלט כתנאי תוכן נוסף. VToonify יורשת את גמישות בקרת הסגנון של מודל StyleGAN על ידי הכנסתו לתוך המחולל כדי לזקק את הנתונים והמודל שלו.

Vtoonify: מודל AI בזמן אמת להפקת סרטוני דיוקן אומנותיים
כתבות קשורות: Lambda Labs הכריזה על מערבל תמונות AI שיכול לשלב עד חמש תמונות

מסגרת VToonify יורשת את המאפיינים המושכים לבקרת סגנון גמישה מהדגמים הנוכחיים מבוססי StyleGAN להצגת תמונות ותואמת אליהם כדי להרחיב אותם ל וידאו הצגה. ה-VToonify שלנו מציע את הדברים הבאים תוך שימוש במודל DualStyleGAN כבסיס StyleGAN:

  • העברת סגנון ממבנים מבוססי מופת;
  • שינוי תואר סגנון;
  • העברת סגנון צבע על בסיס דוגמאות.
Vtoonify: מודל AI בזמן אמת להפקת סרטוני דיוקן אומנותיים
עבור זיקוק StyleGAN, מפתחים משווים בין שני עמודי שדרה Toonify ו- DualStyleGAN, כמו גם את קו הבסיס של תרגום תמונה לתמונה Pix2pixHD ברזולוציה גבוהה. VToonify-T ו-VToonify-D עולות בביצועים של עמודי השדרה הדומים להם, Toonify ו- DualStyleGAN, במונחים של עיצוב הסרטון כולו תוך שמירה על אותם אלמנטים איכותיים וחזותיים כמו עמודי השדרה עבור כל פריים בודד. VToonify-T, למשל, עוקב אחר Toonify כדי לכפות אפקט סטייל חזק, כגון שיער סגול בסגנון Arcane. VToonify-D, לעומת זאת, עושה עבודה טובה יותר בשמירה על תווי פנים. ל-Pix2pixHD יש הבלחות וחפצים בהשוואה ל-VToonify-D.

קרא עוד על AI:

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

מאמרים נוספים
דמיר יללוב
דמיר יללוב

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

Hot Stories
הצטרף לניוזלטר שלנו.
חדשות אחרונות

יום גזר הדין מגיע: גורלה של CZ באיזון כאשר בית המשפט האמריקני שוקל את הטענה של DOJ

צ'אנגפנג ג'או עומד היום בפני גזר דין בבית משפט אמריקאי בסיאטל.

יודע יותר

מייסדי ארנק סמוראי הואשמו בהנחיית 2 מיליארד דולר בעסקאות Darknet

החשש של מייסדי ארנק סמוראי מייצג כישלון בולט עבור התעשייה, המדגיש את ...

יודע יותר
הצטרף לקהילת הטכנולוגיה החדשנית שלנו
למידע נוסף
קרא עוד
Pantera Capital משקיעה ב-TON Blockchain, מביעה אמון בפוטנציאל של טלגרם להרחיב את נגישות הקריפטו
עסקים דיווח חדשות טכנולוגיה
Pantera Capital משקיעה ב-TON Blockchain, מביעה אמון בפוטנציאל של טלגרם להרחיב את נגישות הקריפטו
מאי 2, 2024
מיטוזיס מגייסת מימון של 7 מיליון דולר מקבוצת Amber ומיזמי Foresight כדי לקדם את פרוטוקול הנזילות המודולרי שלה
עסקים דיווח חדשות טכנולוגיה
מיטוזיס מגייסת מימון של 7 מיליון דולר מקבוצת Amber ומיזמי Foresight כדי לקדם את פרוטוקול הנזילות המודולרי שלה
מאי 2, 2024
Galxe משתפת פעולה עם Jambo כדי להרחיב את הנגישות הגלובלית ל Web3
עסקים דיווח חדשות טכנולוגיה
Galxe משתפת פעולה עם Jambo כדי להרחיב את הנגישות הגלובלית ל Web3
מאי 2, 2024
ה-Med-Gemini של גוגל מוכנה לתת ראש בראש GPT-4 עם ביצועים מעולים בתחום הבריאות
AI Wiki חֲדָשׁוֹת תוכנה טכנולוגיה
ה-Med-Gemini של גוגל מוכנה לתת ראש בראש GPT-4 עם ביצועים מעולים בתחום הבריאות
מאי 2, 2024
CRYPTOMERIA LABS PTE. בע"מ.