דיווח חדשות טכנולוגיה
מאי 29, 2023

גוגל לימדה דגם פלמינגו בינה מלאכותית לכתוב תיאורים עבור סרטוני YouTube

בקיצור

פלמינגו פותר את הבעיה של סרטונים קצרים שקשה למצוא אותם באמצעות חיפוש על ידי יצירת תיאורים אוטומטית.

ל-Google DeepMind, מעבדת המחקר בינה מלאכותית, יש מפותח מודל שפה חזותי בשם פלמינגו המסוגל לכתוב תיאורים לסרטונים קצרים ביוטיוב. הבעיה שפלמינגו מטפל בה היא שלעתים קרובות קשה לאתר סרטונים קצרים באמצעות חיפוש בגלל היעדר המידע הדרוש בתיאור. מודל הפלמינגו פותר בעיה זו על ידי יצירת טקסטים אוטומטית עבור מיליוני קטעי וידאו קצרים באתרי אירוח וידאו, המשמשים "מאחורי הקלעים" כדי לאפשר חיפוש קל. למרות שמחברי הסרטון לא יראו את המטא-נתונים, זה עוזר לצופים למצוא ולנווט את הקצרים. נכון לעכשיו, פלמינגו עובד על קליפים חדשים ומעבד סרטונים ישנים שהועלו ליוטיוב במשך זמן רב.

גוגל לימדה דגם פלמינגו בינה מלאכותית לכתוב תיאורים עבור סרטוני YouTube
deepmind.com

בעבר, גוגל הציגה אלגוריתם המאפשר לאנשים לחפש מידע בתוך סרטונים באמצעות שורת החיפוש. לאחרונה גייסה TwelveLabs 12 מיליון דולר ממשקיעים עבור פיתוח דומה. כלים אלה יוצרים הזדמנויות חדשות לווידאו יוצרי תוכן כדי להגדיל את טווח ההגעה והנראות שלהם. על ידי מינוף בינה מלאכותית כדי לשפר ולפשט את תהליך החיפוש והגילוי של תוכן קצר, DeepMind וסטארטאפים דומים מחוללים מהפכה בווידאו שירותי זרימה. הם תורמים לפיתוח טכנולוגיות חיפוש אינטליגנטיות ויעילות יותר, מה שהופך את זה לפשוט עוד יותר עבור הצופים למצוא תוכן שבאמת מעניין אותם.

בינה מלאכותית משחקת תפקיד משמעותי בשדרוג טכנולוגיות החיפוש. על ידי מינוף בינה מלאכותית, מודל הפלמינגו יכול לסרוק ולהעביר את התוכן בסידרה וליצור טקסטים המסכמים את התוכן כדי לעזור למשתמשים לנווט. מודל הפלמינגו משתמש ברשתות עצביות עמוקות כדי ליצור תיאורים טקסטואליים של וידאו קליפ על סמך התוכן האודיו והחזותי של הסרטון. זה יכול ללכוד את המרכיבים השמיעתיים והחזותיים של תוכן קצר ולהפוך אותם לסיכום שקל למשתמשים לחפש ולגשת אליו.

השימוש ב-AI יכול לעזור לזהות מידע חשוב עבור המשתמשים, שעלול להחמיץ במאמצים הידניים של היוצרים תוך הוספת תיאורים. המאמץ שגוזל זמן ללכוד כל פרט באופן ידני הוא לא תמיד מעשי, במיוחד עם הזרימה המתמדת של תוכן וידאו קצר שהועלה בפלטפורמות כמו YouTube. זה יכול להוביל לבלבול ותסכול של משתמשים בעת חיפוש אחר תוכן ספציפי בקצרה. עם זאת, בעזרת שימוש במודלים של שפה חזותית, כמו פלמינגו, ניתן ליצור אוטומטית את המטא נתונים כדי לספק סיכום לגישה נוחה, ובכך לחסוך זמן ולהפוך את תהליך החיפוש ליעיל ומדויק יותר.

פלמינגו מגדיר מודלים חדשים של שפה חזותית למשימות פתוחות

הפרטים החשובים ביותר הם הצגת פלמינגו, מודל שפה חזותי יחיד (VLM) שמגדיר מצב חדש של למידה של מספר יריות במגוון רחב של משימות מולטי-מודאליות פתוחות. פלמינגו הוא מודל שפה חזותית יחידה (VLM) המתייחסתdefiנס למידה מועטה על פני מגוון רחב של פעילויות מולטי-מודאליות פתוחות. הוא מקבל א הפקודה המורכב מתמונות, סרטוני וידיאו וטקסט משולבים כקלט ומפיק את השפה המשויכת. הממשק החזותי והטקסט של פלמינגו, כמו אלה של דגמי שפות גדולים (לימודי תואר שני), יכול להוביל את המודל לקראת השגת מטרה מולטי-מודאלית. ניתן לשאול את המודל שאלה עם תמונה או וידאו טריים ולאחר מכן לבנות תשובה, בהינתן כמה זוגות לדוגמה של קלט חזותי ותגובות טקסט צפויות המורכבות בהנחיה של פלמינגו.

פלמינגו הוא מודל שפה חזותי הממזג מודלים של שפות גדולות עם ייצוגים ויזואליים רבי עוצמה והוא מאומן על תערובת של נתונים רב-מודאליים משלימים בקנה מידה גדול המגיע רק מהאינטרנט מבלי להשתמש בנתונים כלשהם המובאים למטרות למידת מכונה. היא מנצחת את כל גישות הלמידה הקודמות של מעט יריות כאשר היא ניתנת עד ארבע דוגמאות לכל משימה, ועולה על שיטות שמכוונות ומוטבות עבור כל משימה באופן עצמאי ומשתמשות במספר סדרי גודל יותר בנתונים ספציפיים למשימה. הוא גם בדק את היכולות האיכותיות של המודל מעבר לאמות מידה הנוכחיות שלו, כמו כיתוב תמונות הקשורות למין וצבע עור והפעלת הכיתובים שנוצרו באמצעות ה-API של Google Perspective, שמעריך את הרעילות של טקסט. פלמינגו מאפשר להסתגל ביעילות לדוגמאות הללו ולמשימות אחרות תוך כדי תנועה מבלי לשנות את המודל ומפגין יכולות דיאלוג מולטי-מודאליות מחוץ לקופסה.

פלמינגו היא משפחת מודלים למטרות כלליות שניתן ליישם על משימות הבנת תמונה ווידאו עם דוגמאות מינימליות למשימה. זוהי משפחה יעילה ויעילה של מודלים לשימוש כללי שניתן ליישם על משימות הבנת תמונה ווידאו עם דוגמאות מינימליות למשימה. היכולות של פלמינגו סוללות את הדרך לאינטראקציות עשירות עם מודלים נלמדים של שפות חזותיות שיכולות לאפשר פרשנות טובה יותר ויישומים חדשים ומלהיבים, כמו עוזר חזותי.

קרא עוד על AI:

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

מאמרים נוספים
דמיר יללוב
דמיר יללוב

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

Hot Stories
הצטרף לניוזלטר שלנו.
חדשות אחרונות

התיאבון המוסדי גדל לקראת תעודות סל של ביטקוין על רקע תנודתיות

גילויים באמצעות הגשת 13F חושפים משקיעים מוסדיים בולטים שמתעסקים בתעודות סל של ביטקוין, מה שמדגיש הסכמה גוברת של ...

יודע יותר

יום גזר הדין מגיע: גורלה של CZ באיזון כאשר בית המשפט האמריקני שוקל את הטענה של DOJ

צ'אנגפנג ג'או עומד היום בפני גזר דין בבית משפט אמריקאי בסיאטל.

יודע יותר
הצטרף לקהילת הטכנולוגיה החדשנית שלנו
למידע נוסף
קראו עוד
Injective מאחדת כוחות עם AltLayer כדי להביא אבטחה מחדש ל-inEVM
עסקים דיווח חדשות טכנולוגיה
Injective מאחדת כוחות עם AltLayer כדי להביא אבטחה מחדש ל-inEVM
מאי 3, 2024
מאסה משתפת פעולה עם Teller כדי להציג את מאגר ההלוואות של MASA, מאפשרת הלוואות ב-USDC על בסיס
שוקי דיווח חדשות טכנולוגיה
מאסה משתפת פעולה עם Teller כדי להציג את מאגר ההלוואות של MASA, מאפשרת הלוואות ב-USDC על בסיס
מאי 3, 2024
Velodrome משיקה את גרסת הבטא של Superchain בשבועות הקרובים ומתרחבת ברחבי OP Stack Layer 2 Blockchains
שוקי דיווח חדשות טכנולוגיה
Velodrome משיקה את גרסת הבטא של Superchain בשבועות הקרובים ומתרחבת ברחבי OP Stack Layer 2 Blockchains
מאי 3, 2024
CARV מכריזה על שותפות עם Aethir לביזור שכבת הנתונים שלה ולחלוקת תגמולים
עסקים דיווח חדשות טכנולוגיה
CARV מכריזה על שותפות עם Aethir לביזור שכבת הנתונים שלה ולחלוקת תגמולים
מאי 3, 2024
CRYPTOMERIA LABS PTE. בע"מ.