גוגל מתגברת על מטא על ידי השקת מחולל AI חדש של טקסט לווידאו, וידאו אימג'ן
בקיצור
ה-Image Video של גוגל מנסה לעזור למחוללי וידאו להפוך לאפליקציות קטלניות
לא לקח הרבה זמן עד שגוגל הגיבה ל-Make-a-Video מ-Meta. באמצעות בקשת טקסט, סרטון תדמיתי עשוי להפיק סרטון פנטסטי. התוצאות הן התקדמות עצומה מעל הטכנולוגיה המתקדמת למרות מספר חסרונות.
בהשוואה למחולל ה- Text-to-Video AI של פייסבוק צור סרטון, התוצאות טובות בצורה ניכרת. עם זאת, אסטרטגיה זו דרשה גם יותר פיקוח. בניגוד ל-Imagen Video, שבו עובדי המיקרו עבדו קשה כדי להוסיף הערות לסרטים עם תיאורים כתובים, Make-a-Scene השתמש בסרטונים ללא תווית להדרכה.
אין טעם להיכנס לפרטי הארכיטקטורה; כדאי לקרוא על זה במאמר כאן. אנחנו יכולים רק לאשר ש-16 פריימים נוצרים לראשונה מהטמעת הטקסט של מקודד T5 ברזולוציה של 48×24 עם 3 פריימים לשנייה, ושזה מוגדל על ידי מספר דגמי דיפוזיה לסרט הסופי של 128 פריימים ב-1280×768 ו-24 פריימים לשנייה.
מהו וידאו אימג'ן?
Imagen Video היא שיטה ליצירת סרטונים מותנים בטקסט המבוססת על סדרה של מודלים של דיפוזיה של וידאו. Imagen Video מפיקה סרטים באיכות גבוהה מ הודעות טקסט על ידי שילוב של מודל הפקת וידאו בסיסי עם סדרה של דגמי וידאו מרחביים וזמניים שלובים ברזולוציית על. עברו על צוות בחירות העיצוב שביצע תוך כדי קנה המידה של המערכת כעלdefiמודל טקסט לווידאו, כולל ההחלטה להגדיר v-parameterize מודלים של דיפוזיה ובחירה של מודלים בעלי רזולוציית-על של טמפורלית ומרחבית, ברזולוציות ספציפיות. בנוסף, הוא מאמת ומיישם תוצאות מעבודה קודמת על הפקת תמונה מבוססת דיפוזיה בהקשר של יצירת וידאו. דגמי וידאו נתונים לאחר מכן לזיקוק מתקדם עם הנחיה נטולת מסווג לדגימה מהירה ואיכותית.
צוות המחקר של גוגל טוען שהמערכת מקבלת תיאור טקסטואלי ו יוצר סרט בן 16 תמונות בשלוש פריימים לשנייה ברזולוציה של 24 על 48 פיקסלים. המערכת מדרגת ו"חוזה" את הפריימים הנוספים, ויוצרת סרטון סופי עם 128 פריימים ב-24 פריימים לשנייה ורזולוציית 720p (1280×768). ישנם 60 מיליון זוגות תמונה-טקסט ו-14 מיליון זוגות וידאו-טקסט שימשו לאימון Imagen Video.
דגימות וידאו תמונה
גם אם רק בגלל שהשימוש בבינה מלאכותית ליצירת וידאו הוא מהיר יותר ופחות יקר, טכנולוגיות כאלה יופעלו ללא ספק בכל מקום.
מעוניינים לקרוא עוד? הנה כמה נושאים נוספים שכדאי לבדוק:
כתב ויתור
בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.
על המחבר
דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.
מאמרים נוספיםדמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.