המחקר של סטנפורד מאשש GPT-4 הולך ונעשה מטומטם יותר
בקיצור
מחקר של Matei Zaharia וצוותו מסטנפורד ומאוניברסיטת ברקלי השווה את הביצועים של GPT-4 ו ChatGPT לתת מענה לדאגות המשתמשים לגבי יעילות המודל.
המחקר העריך את המודלים בארבע משימות ספציפיות: מתמטיקה, קידוד, רגישות וחשיבה חזותית.
מאטי זהריה והצוות שלו מסטנפורד ומ-UC ברקלי ניהל מחקר שהשוותה את הביצועים של GPT-4 ל ChatGPT. חקירה זו ביקשה לתת מענה לחששות המשתמשים מכך שיעילות הדגם התמעטה.
מוצרים מקושרים: GPT-4 לעומת GPT-3: מה יש לדגם החדש להציע? |
החוקרים תכננו את המחקר כדי להעריך את המודלים בארבע משימות ספציפיות. משימות אלו כללו:
- מתמטיקה: יכולת המודל לקבוע אם מספר נתון הוא ראשוני או מרוכב.
- קידוד: הערכת יכולתו של המודל ליצור קוד משמעותי ופונקציונלי.
- רגישות: ניתוח תשובות המודל לשאלות בעלות תוכן שעלול להיות "רעיל".
- נימוק חזותי: בדיקת יכולתו של המודל לפתרון בעיות הכרוכות בדפוסים חזותיים, תוך שימוש במבחן ARC. המשתתפים היו צריכים לזהות דפוסים בסט של תמונות וליישם אותם כדי לפתור דוגמה חדשה.
בתחום המתמטיקה, שניהם GPT-4 גרסאות, מהדורות מרץ ויוני, הציגו דיוק עקבי בקביעת מספרים ראשוניים ומרוכבים. המודלים הציגו מיומנות בטיפול בחישובים אלה, וסיפקו תוצאות אמינות.
עוברים לקידוד, GPT-4 הפגין יכולת משופרת ליצור קוד משמעותי ופונקציונלי בהשוואה לקודמיו. יכולות יצירת הקוד של המודל הראו הבטחה, והציעו יתרונות פוטנציאליים למפתחים ומתכנתים.
לגבי רגישות, המחקר העריך את תשובות המודלים לשאלות המכילות תוכן שעלול להזיק או פוגעני. GPT-4 הפגין ניתוח רגישות משופר והציג יכולת משופרת לספק תגובות מתאימות בהקשרים כאלה. זה מסמל צעד חיובי קדימה בטיפול בדאגות המשתמשים לגבי פלטים שעלולים להיות בעייתיים.
לבסוף, משימות החשיבה החזותית המבוססות על רף ARC הושלמו בהצלחה על ידי שניהם GPT-4 גרסאות. המודלים זיהו ביעילות דפוסים בתוך ערכות תמונה והדגימו יכולת ליישם דפוסים אלה כדי לפתור דוגמאות חדשות. זה מציג את היכולת שלהם להבנה ויזואלית.
ChatGPT הפגין צמיחה משמעותית במדדי הביצועים עד יוני, והציגו שיפור מדהים של למעלה מפי עשרה. למרות שהמחקר לא התעמק בגורמים הספציפיים התורמים לשיפור זה, הוא מדגיש ChatGPTהתקדמותה של חשיבה מתמטית ויכולות פתרון בעיות.
מוצרים מקושרים: 10+ משפרי צילום AI הטובים ביותר בשנת 2023 |
האיכות של GPT-4 ו ChatGPT נחקר לאחר ניתוח של יכולות התכנות שלהם. עם זאת, מבט מקרוב מגלה כמה ניואנסים מרתקים הסותרים את הרושם הראשוני.
המחברים לא ביצעו או אימתו את תקינות הקוד; ההערכה שלהם התבססה אך ורק על תקפותו כקוד Python. בנוסף, נראה היה שהמודלים למדו טכניקת מסגור קוד ספציפית באמצעות דקורטור, מה שהפריע ללא כוונה לביצוע קוד.
כתוצאה מכך, מתברר שלא התוצאות ולא הניסוי עצמו יכולים להיחשב כעדות להתדרדרות המודל. במקום זאת, המודלים מדגימים גישה שונה ליצירת תגובות, שעלולה לשקף שינויים בהכשרתם.
בכל הנוגע למשימות תכנות, שני הדגמים הראו ירידה בתגובה להנחיות "שגויות", עם GPT-4 מפגינים הפחתה של יותר מפי ארבע במקרים כאלה. בנוסף, במשימה של חשיבה חזותית, איכות התגובות השתפרה בכמה נקודות אחוז עבור שני הדגמים. תצפיות אלו מצביעות על התקדמות ולא על ירידה בביצועים.
עם זאת, הערכת מיומנויות מתמטיות מציגה אלמנט מסקרן. המודלים סיפקו באופן עקבי מספרים ראשוניים כתשובות, מה שמצביע על תגובת "כן" עקבית. עם זאת, עם הצגת מספרים מרוכבים למדגם, התברר שהמודלים שינו את התנהגותם והחלו לספק תגובות "לא", מה שמרמז על אי ודאות ולא על ירידה באיכות. המבחן עצמו הוא מיוחד וחד צדדי, ואת תוצאותיו ניתן לייחס לשינויים בהתנהגות המודל ולא לירידה באיכות.
חשוב לציין שגרסאות ה-API נבדקו, ולא הגרסאות מבוססות הדפדפן. אמנם ייתכן שהדגמים בדפדפן עברו התאמות כדי לייעל את המשאבים, אבל המחקר המצורף לא defiלהוכיח באופן יזום את ההשערה הזו. ההשפעה של משמרות כאלה יכולה להיות דומה לשדרוג לאחור של המודל, מה שמוביל לאתגרים פוטנציאליים עבור משתמשים המסתמכים על עבודה ספציפית הנחיות וניסיון מצטבר.
במקרה של GPT-4 יישומי API, לסטיות הללו בהתנהגות יכולות להיות השלכות מוחשיות. קוד שפותח בהתבסס על צרכיו ומשימותיו של משתמש ספציפי עלול לא לתפקד עוד כמתוכנן אם המודל יעבור שינויים בהתנהגותו.
מומלץ למשתמשים לשלב שיטות בדיקה דומות בתהליכי העבודה שלהם. על ידי יצירת קבוצה של הנחיות, טקסטים נלווים ותוצאות צפויות, משתמשים יכולים לבדוק באופן קבוע אם יש עקביות בין הציפיות שלהם לבין תגובות המודל. ברגע שמתגלים חריגות, ניתן לנקוט באמצעים מתאימים לתיקון המצב.
קרא עוד על AI:
כתב ויתור
בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.
על המחבר
דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.
מאמרים נוספיםדמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.