דיווח חדשות טכנולוגיה
יוני 12, 2023

מיקרוסופט הציגה מודל שפה מולטי-מודאלי אוטר להבנה חזותית בהתבסס על מערך הנתונים המסיבי של הדרכה חזותית-טקסט MIMIC-IT

בקיצור

Otter הוא מודל שפה חזותית (VLM) שנבנה על פלטפורמת OpenFlamingo, שנועד לחולל מהפכה בהבנה החזותית ואינטראקציה עם תוכן חזותי.

לוטרה הוא מודל שפה חזותי חדשני (VLM) הבנוי על פלמינגו פתוח פלטפורמה, והיא אמורה לשפר את האופן שבו אנו מתקשרים עם תוכן ויזואלי. כחלק מפרויקט Otter השאפתני, Microsoft יש הציג מערך נתונים חזותי-טקסט עצום מאלף שנקרא MIMIC-IT. מערך נתונים זה מכיל 2.8 מיליון זוגות מדהימים של הוראות מולטי-מודאליות מקושרות עם תשובות, כולל 2.2 מיליון הוראות ייחודיות שנגזרות מתמונות וסרטונים. מערך הנתונים אוצר בקפידה כדי לדמות דיאלוגים טבעיים, תוך כיסוי תרחישים כמו תיאורי תמונות ווידאו, השוואות תמונות, תשובות לשאלות, הבנת סצנה ועוד. צמדי הוראה-תגובה האיכותיים הללו נוצרו באמצעות העוצמה ChatGPT-0301 API, המייצג השקעה של כ-20 אלף דולר.

מיקרוסופט הציגה מודל שפה מולטי-מודאלי אוטר להבנה חזותית בהתבסס על מערך הנתונים המסיבי של הדרכה חזותית-טקסט MIMIC-IT

מערך הנתונים של MIMIC-IT ממלא תפקיד מכריע באימון מודל Otter, אשר תוכנן להצטיין בהבנת סצנות חזותיות, הנמקות ומסקנות הגיוניות. כל זוג הוראה-תגובה במערך הנתונים מלווה במידע רב-מודאלי בתוך הקשר, יוצר הקשרים שיחה המעצימים את המודל לתפוס את הניואנסים של תפיסה, חשיבה ותכנון. כדי להרחיב את תהליך ההערות, מיקרוסופט השתמשה בצינור הערות אוטומטי בשם Syphus, המשלב מומחיות אנושית עם היכולות של GPT כדי להבטיח את האיכות והמגוון של מערך הנתונים.

מיקרוסופט הציגה מודל שפה מולטי-מודאלי אוטר להבנה חזותית בהתבסס על מערך הנתונים המסיבי של הדרכה חזותית-טקסט MIMIC-IT

באמצעות מערך הנתונים של MIMIC-IT, מיקרוסופט הכשירה את מודל Otter, VLM בקנה מידה גדול המבוסס על פלטפורמת OpenFlamingo. באמצעות הערכות מקיפות על אמות מידה של שפת חזון, אוטר הוכיח מיומנות יוצאת דופן בתפיסה רב-מודאלית, חשיבה ולמידה בתוך הקשר. הערכות אנושיות חשפו את יכולתו ליישר קו יעיל עם כוונות המשתמש, מה שהופך אותו לכלי רב ערך לפירוש וביצוע משימות מורכבות המבוססות על הוראות שפה טבעית.

Otter v0.2 הרחיבה את היכולות שלה כדי לתמוך בכניסות וידאו, ומאפשרת זאת מסגרות תהליך ותמונות מרובות כדוגמאות בתוך הקשר.

שחרורו של מערך הנתונים של MIMIC-IT, יחד עם צינור איסוף הוראות-תגובה, אמות מידה ומודל Otter, מייצגים אבן דרך משמעותית בתחום של עיבוד שפות רב-מודאלי. על ידי העמדת משאבים אלה לזמינים לחוקרים ולמפתחים, מיקרוסופט שואפת לטפח חדשנות ושיתוף פעולה, ולאפשר את השילוב של Otter ו-OpenFlamingo לתוך צינורות הדרכה והסקת מסקנות מותאמים אישית באמצעות הפופולריים. פנים מחבקות מסגרת רובוטריקים.

מערך הנתונים של MIMIC-IT מקיף מגוון רחב של תרחישים מהחיים האמיתיים, המאפשרים מודלים של Vision-Language (VLMs) להבין סצנות כלליות, להגיב על הקשר ולהבדיל באופן מושכל בין תצפיות. זה פותח אפשרויות, כמו פיתוח מודלים של עוזרים חזותיים אגוצנטריים שיכולים לענות על שאלות כמו, "היי, אתה חושב שהשארתי את המפתחות שלי על השולחן?".

MIMIC-IT אינו מוגבל לשפה האנגלית. זה גם תומך במספר שפות, כולל סינית, קוריאנית, יפנית, גרמנית, צרפתית, ספרדית וערבית. תמיכה רב לשונית זו מאפשרת לקהל עולמי גדול יותר ליהנות מהנוחות ומההתקדמות שהביאה הבינה המלאכותית.

כדי להבטיח יצירת צמדי הוראה-תגובה באיכות גבוהה, מיקרוסופט הציגה את Syphus, צינור אוטומטי המשלב הודעות מערכת, הערות ויזואליות ודוגמאות בתוך הקשר כהנחיות ChatGPT. זה מבטיח את המהימנות והדיוק של צמדי ההוראה-תגובה שנוצרו על פני מספר שפות.

קרא עוד על AI:

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

מאמרים נוספים
דמיר יללוב
דמיר יללוב

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

Hot Stories
הצטרף לניוזלטר שלנו.
חדשות אחרונות

מ-Ripple ל-DAO הירוק הגדול: כיצד פרויקטים של מטבעות קריפטו תורמים לצדקה

בואו לחקור יוזמות המנצלות את הפוטנציאל של מטבעות דיגיטליים למטרות צדקה.

יודע יותר

AlphaFold 3, Med-Gemini ואחרים: הדרך בינה מלאכותית משנה את שירותי הבריאות ב-2024

בינה מלאכותית מתבטאת בדרכים שונות בתחום הבריאות, מחשיפת מתאמים גנטיים חדשים ועד העצמת מערכות כירורגיות רובוטיות...

יודע יותר
הצטרף לקהילת הטכנולוגיה החדשנית שלנו
למידע נוסף
קראו עוד
10 כלי AI בחינם ליצירת תוכן, עריכת וידאו ועוד
AI Wiki תקציר חינוך סגנון חיים תוכנה טכנולוגיה
10 כלי AI בחינם ליצירת תוכן, עריכת וידאו ועוד
מאי 14, 2024
נציבות ניירות הערך של הונג קונג מזהירה מפני הונאות Deepfake המכוונות לתעשיית הקריפטו: השלכות על בטיחות המשקיעים
סגנון חיים אבטחה Wiki תוכנה סיפורים וסקירות טכנולוגיה
נציבות ניירות הערך של הונג קונג מזהירה מפני הונאות Deepfake המכוונות לתעשיית הקריפטו: השלכות על בטיחות המשקיעים
מאי 14, 2024
Ripple ו-Evmos משתפים פעולה בפיתוח XRP Ledger EVM Sidechain עם טכנולוגיית EvmOS
עסקים דיווח חדשות טכנולוגיה
Ripple ו-Evmos משתפים פעולה בפיתוח XRP Ledger EVM Sidechain עם טכנולוגיית EvmOS
מאי 14, 2024
5ireChain יוזמת תמריץ 'Testnet Thunder: GA' עבור בדיקות לחץ ברשת, מזמינה משתמשים להשתתף עבור Airdrop תגמולים
דיווח חדשות טכנולוגיה
5ireChain יוזמת תמריץ 'Testnet Thunder: GA' עבור בדיקות לחץ ברשת, מזמינה משתמשים להשתתף עבור Airdrop תגמולים
מאי 14, 2024
CRYPTOMERIA LABS PTE. בע"מ.