אָנָלִיזָה טכנולוגיה
אוגוסט

Is GPT-4 עומדים להטעין רובוטיקה? מדוע RT-2 משנה הכל

בקיצור

Google DeepMind פיתחה יישומי מודל שפת חזון עבור שליטה רובוטית מקצה לקצה, תוך התמקדות ביכולתם להכליל ולהעביר ידע בין תחומים.

מודל ה-RT-2, שנועד ליצור רצפים המסוגלים לקודד כמויות עצומות של מידע, נבדק בתרחישים שונים, כולל אובייקטים לא מוכרים, רקעים שונים וסביבות מגוונות.

דגם ה-RT-2 עולה על כמה מקודמיו בהסתגלות לתנאים חדשים, בעיקר בזכות מודל השפה הרחב שלו.

Google DeepMind חקרה יישומי מודל של שפת חזון, תוך התמקדות בפוטנציאל שלהם לבקרה רובוטית מקצה לקצה. חקירה זו ביקשה לקבוע אם המודלים הללו מסוגלים להכללה רחבה. יתר על כן, הוא חקר האם פונקציות קוגניטיביות מסוימות, כגון חשיבה ותכנון, הקשורות לעתים קרובות למודלים של שפה מרחיבה, יכולות להופיע בהקשר זה.

Is GPT-4 עומדים להטעין רובוטיקה? מדוע RT-2 משנה הכל
אשראי: Metaverse Post / Stable Diffusion

הנחת היסוד מאחורי חקירה זו קשורה באופן מהותי למאפיינים של מודלים של שפה גדולה (LLMs). כגון מודלים נועדו ליצור כל רצף המסוגל לקודד מגוון רחב של מידע. זה כולל לא רק שפה נפוצה או קוד תכנות כמו Python, אלא גם פקודות ספציפיות שיכול להנחות פעולות רובוטיות.

כדי להעמיד זאת בפרספקטיבה, שקול את יכולתו של המודל להבין ולתרגם רצפי מחרוזת ספציפיים לפקודות רובוטיות שניתן לבצע. כדוגמה, מחרוזת שנוצרה כגון "1 128 91 241 5 101 127 217" ניתנת לפענוח באופן הבא:

  • הספרה הראשונית, אחת, מציינת שהמשימה עדיין נמשכת ולא הגיעה לסיומה.
  • שלישיית המספרים שלאחר מכן, 128-91-241, מציינת שינוי יחסי ומנורמל על פני שלושת ממדי המרחב.
  • הסט המסכם, 101-127-217, מצביע על דרגת הסיבוב של מקטע הזרוע הפונקציונלי של הרובוט.

תצורה כזו מאפשר את הרובוט לשנות את מצבו על פני שש דרגות חופש. ציור הקבלה, בדיוק כמו מודלים של שפה להטמיע רעיונות ומושגים כלליים מנתונים טקסטואליים עצומים באינטרנט, מודל RT-2 שואב ידע ממידע מבוסס אינטרנט כדי להנחות פעולות רובוטיות.

ההשלכות האפשריות לכך הן משמעותיות. אם מודל נחשף למערכת אוצרת של מסלולים המעידים בעצם, "כדי להשיג תוצאה מסוימת, מנגנון האחיזה של הרובוט צריך לנוע בצורה מסוימת", אז הגיוני שהשנאי יכול ליצור פעולות קוהרנטיות בהתאם הקלט הזה.

היבט מכריע בהערכה היה היכולת לבצע משימות חדשות שלא מכוסות במהלך האימון. ניתן לבדוק זאת בכמה דרכים שונות:

1) חפצים לא מוכרים: האם המודל יכול לשכפל משימה כאשר הוא מוצג לאובייקטים שלא הוכשר עליהם? הצלחה בהיבט זה תלויה בהמרת הפיד הוויזואלי מהמצלמה לווקטור, שמודל השפה יכול לפרש. לאחר מכן, המודל אמור להיות מסוגל להבחין במשמעות שלו, לקשר מונח עם מקבילו בעולם האמיתי, ולאחר מכן להנחות את הזרוע הרובוטית לפעול בהתאם.

2) רקעים שונים: כיצד מגיב המודל כאשר רוב העדכון הוויזואלי מורכב מאלמנטים חדשים מכיוון שהרקע של מיקום המשימה השתנה לחלוטין? למשל, שינוי בטבלאות או אפילו שינוי בתנאי התאורה.

3) סביבות מגוונות: הרחבת הנקודה הקודמת, מה אם כל המיקום עצמו שונה?

עבור בני אדם, התרחישים האלה נראים פשוטים - באופן טבעי, אם מישהו יכול לזרוק פחית בחדר שלו, הוא אמור להיות מסוגל לעשות זאת גם בחוץ, נכון? (בהערה צדדית, ראיתי כמה אנשים בפארקים נאבקים במשימה הפשוטה לכאורה הזו). עם זאת, עבור מכונות, אלו אתגרים שיש לטפל בהם.

נתונים גרפיים מגלים כי דגם ה-RT-2 עולה על כמה מקודמיו בכל הנוגע להסתגלות לתנאים החדשים הללו. עליונות זו נובעת במידה רבה ממינוף מודל שפה נרחב, המועשר בשלל הטקסטים שעיבד בשלב ההכשרה שלו.

אילוץ אחד שהודגש על ידי החוקרים הוא חוסר היכולת של המודל להסתגל לכישורים חדשים לגמרי. למשל, זה לא היה מבין הרמת חפץ מהצד השמאלי או הימני שלו אם זה לא היה חלק מהאימונים שלו. לעומת זאת, דגמי שפה אוהבים ChatGPT עברו את המשוכה הזו ללא מאמץ. על ידי עיבוד כמויות עצומות של נתונים על פני מספר עצום של משימות, מודלים אלה יכולים לפענח במהירות ולפעול על פי בקשות חדשות, גם אם מעולם לא נתקלו בהן בעבר.

באופן מסורתי, רובוטים פעלו באמצעות שילובים של מערכות מורכבות. בהגדרות אלו, מערכות חשיבה ברמה גבוהה יותר ומערכות מניפולציה בסיסיות קיימו לעתים קרובות אינטראקציה ללא תקשורת יעילה, דומה לשחק משחק של "טלפון שבור". דמיינו לעצמכם המשגה של פעולה נפשית, ואז צריך להעביר אותה לגוף שלכם לביצוע. דגם ה-RT-2 החדש שהוצג מייעל את התהליך הזה. זה מאפשר למודל שפה יחיד לבצע חשיבה מתוחכמת תוך כדי שיגור פקודות ישירות לרובוט. זה מדגים שעם נתוני אימון מינימליים, הרובוט יכול לבצע פעילויות שלא למד במפורש.

למשל, כדי לאפשר למערכות ישנות יותר להשליך פסולת, הן נדרשו להכשרה ספציפית לזיהוי, איסוף וסילוק אשפה. לעומת זאת, ה-RT-2 כבר מחזיק בהבנה בסיסית של פסולת, יכול לזהות אותו ללא הכשרה ממוקדת, ויכול להיפטר ממנו גם ללא הדרכה מוקדמת על הפעולה. שקול את השאלה הניואנסית, "מה מהווה פסולת?" זהו רעיון מאתגר לפורמליזציה. שקית צ'יפס או קליפת בננה עוברת מלהיות פריט לפסולת לאחר צריכה. מורכבויות כאלה אינן מצריכות הסבר מפורש או הכשרה נפרדת; RT-2 מפענח אותם תוך שימוש בהבנתו הטבועה ופועל בהתאם.

הנה הסיבה שהקידום הזה הוא מכריע וההשלכות העתידיות שלו:

  • מודלים של שפה, כמו RT-2, מתפקדים כמנועים קוגניטיביים מקיפים. היכולת שלהם להכליל ולהעביר ידע בין תחומים פירושה שהם ניתנים להתאמה ליישומים מגוונים.
  • החוקרים בכוונה לא השתמשו במודלים המתקדמים ביותר עבור המחקר שלהם, במטרה להבטיח שכל דגם יגיב תוך שנייה (כלומר תדירות פעולה רובוטית של לפחות 1 הרץ). באופן היפותטי, שילוב מודל כמו GPT-4 וכן מודל ויזואלי מעולה יכול להניב תוצאות משכנעות אף יותר.
  • הנתונים המקיפים עדיין דלים. עם זאת, המעבר מהמצב הנוכחי למערך נתונים הוליסטי, החל מקווי ייצור במפעל ועד מטלות ביתיות, צפוי להימשך כשנה עד שנתיים. זוהי הערכה טנטטיבית, כך שמומחים בתחום עשויים להציע דיוק רב יותר. הזרם הזה של נתונים יביא בהכרח להתקדמות משמעותית.
  • בעוד שה-RT-2 פותח בטכניקה ספציפית, קיימות שיטות רבות אחרות. העתיד כנראה טומן בחובו מיזוג של מתודולוגיות אלה, עוד יותר שיפור היכולות הרובוטיות. גישה פרוספקטיבית אחת יכולה לכלול אימון רובוטים באמצעות סרטונים של פעילויות אנושיות. אין צורך בהקלטות בלעדיות - פלטפורמות כמו TikTok ו-YouTube מציעות מאגר עצום של תוכן כזה.

קרא עוד על AI:

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

מאמרים נוספים
דמיר יללוב
דמיר יללוב

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

Hot Stories

Lisk עובר רשמית ל-Ethereum Layer 2 וחושפת Core v4.0.6

by אליסה דוידסון
מאי 08, 2024
הצטרף לניוזלטר שלנו.
חדשות אחרונות

Lisk עובר רשמית ל-Ethereum Layer 2 וחושפת Core v4.0.6

by אליסה דוידסון
מאי 08, 2024

התיאבון המוסדי גדל לקראת תעודות סל של ביטקוין על רקע תנודתיות

גילויים באמצעות הגשת 13F חושפים משקיעים מוסדיים בולטים שמתעסקים בתעודות סל של ביטקוין, מה שמדגיש הסכמה גוברת של ...

יודע יותר

יום גזר הדין מגיע: גורלה של CZ באיזון כאשר בית המשפט האמריקני שוקל את הטענה של DOJ

צ'אנגפנג ג'או עומד היום בפני גזר דין בבית משפט אמריקאי בסיאטל.

יודע יותר
הצטרף לקהילת הטכנולוגיה החדשנית שלנו
למידע נוסף
קראו עוד
Nexo יוזמת את 'המצוד' כדי לתגמל את המשתמשים באסימוני NEXO של 12 מיליון דולר על כך שהם מעורבים במערכת האקולוגית שלה
שוקי דיווח חדשות טכנולוגיה
Nexo יוזמת את 'המצוד' כדי לתגמל את המשתמשים באסימוני NEXO של 12 מיליון דולר על כך שהם מעורבים במערכת האקולוגית שלה
מאי 8, 2024
Revolut X Exchange של Revolut שוקדת על סוחרי קריפטו עם אפס עמלות יצרן, וניתוח מתקדם
שוקי תוכנה סיפורים וסקירות טכנולוגיה
Revolut X Exchange של Revolut שוקדת על סוחרי קריפטו עם אפס עמלות יצרן, וניתוח מתקדם
מאי 8, 2024
פלטפורמת מסחר קריפטו BitMEX מציגה לראשונה מסחר באופציות עם 0 עמלות ותמריצים במזומן
עסקים שוקי דיווח חדשות
פלטפורמת מסחר קריפטו BitMEX מציגה לראשונה מסחר באופציות עם 0 עמלות ותמריצים במזומן
מאי 8, 2024
Lisk עובר רשמית ל-Ethereum Layer 2 וחושפת Core v4.0.6
דיווח חדשות טכנולוגיה
Lisk עובר רשמית ל-Ethereum Layer 2 וחושפת Core v4.0.6
מאי 8, 2024
CRYPTOMERIA LABS PTE. בע"מ.