דיווח חדשות טכנולוגיה
20 ביולי 2023

המחקר של סטנפורד מאשש GPT-4 הולך ונעשה מטומטם יותר

בקיצור

מחקר של Matei Zaharia וצוותו מסטנפורד ומאוניברסיטת ברקלי השווה את הביצועים של GPT-4 ו ChatGPT לתת מענה לדאגות המשתמשים לגבי יעילות המודל.

המחקר העריך את המודלים בארבע משימות ספציפיות: מתמטיקה, קידוד, רגישות וחשיבה חזותית.

מאטי זהריה והצוות שלו מסטנפורד ומ-UC ברקלי ניהל מחקר שהשוותה את הביצועים של GPT-4 ל ChatGPT. חקירה זו ביקשה לתת מענה לחששות המשתמשים מכך שיעילות הדגם התמעטה.

המחקר של סטנפורד מאשש GPT-4 הולך ונעשה מטומטם יותר
אשראי: Metaverse Post
מוצרים מקושרים: GPT-4 לעומת GPT-3: מה יש לדגם החדש להציע?

החוקרים תכננו את המחקר כדי להעריך את המודלים בארבע משימות ספציפיות. משימות אלו כללו:

  • מתמטיקה: יכולת המודל לקבוע אם מספר נתון הוא ראשוני או מרוכב.
  • קידוד: הערכת יכולתו של המודל ליצור קוד משמעותי ופונקציונלי.
  • רגישות: ניתוח תשובות המודל לשאלות בעלות תוכן שעלול להיות "רעיל".
  • נימוק חזותי: בדיקת יכולתו של המודל לפתרון בעיות הכרוכות בדפוסים חזותיים, תוך שימוש במבחן ARC. המשתתפים היו צריכים לזהות דפוסים בסט של תמונות וליישם אותם כדי לפתור דוגמה חדשה.

בתחום המתמטיקה, שניהם GPT-4 גרסאות, מהדורות מרץ ויוני, הציגו דיוק עקבי בקביעת מספרים ראשוניים ומרוכבים. המודלים הציגו מיומנות בטיפול בחישובים אלה, וסיפקו תוצאות אמינות.

עוברים לקידוד, GPT-4 הפגין יכולת משופרת ליצור קוד משמעותי ופונקציונלי בהשוואה לקודמיו. יכולות יצירת הקוד של המודל הראו הבטחה, והציעו יתרונות פוטנציאליים למפתחים ומתכנתים.

לגבי רגישות, המחקר העריך את תשובות המודלים לשאלות המכילות תוכן שעלול להזיק או פוגעני. GPT-4 הפגין ניתוח רגישות משופר והציג יכולת משופרת לספק תגובות מתאימות בהקשרים כאלה. זה מסמל צעד חיובי קדימה בטיפול בדאגות המשתמשים לגבי פלטים שעלולים להיות בעייתיים.

לבסוף, משימות החשיבה החזותית המבוססות על רף ARC הושלמו בהצלחה על ידי שניהם GPT-4 גרסאות. המודלים זיהו ביעילות דפוסים בתוך ערכות תמונה והדגימו יכולת ליישם דפוסים אלה כדי לפתור דוגמאות חדשות. זה מציג את היכולת שלהם להבנה ויזואלית.

התוצאות מצביעות על כך GPT-4 הראה ירידה בדיוק, עם רק קצת יותר מ-2% מהתשובות הנכונות. חשוב לציין שמבחן מסוים זה מעריך בעיקר את יכולתו של המודל לזכור נתונים במקום להציג את היכולות המתמטיות הטבועות בו. המשימה סובבת סביב זכירת זיכרון, שכן המודל חסר את היכולת לאימות חישוב ולהסקת מסקנות, במיוחד כשמדובר במספרים ראשוניים.

ChatGPT הפגין צמיחה משמעותית במדדי הביצועים עד יוני, והציגו שיפור מדהים של למעלה מפי עשרה. למרות שהמחקר לא התעמק בגורמים הספציפיים התורמים לשיפור זה, הוא מדגיש ChatGPTהתקדמותה של חשיבה מתמטית ויכולות פתרון בעיות.

המחקר לא העריך את האיכות או הנכונות של הקוד שנוצר. במקום זאת, נראה היה שהמודלים מציגים התנהגות "מותאמת אישית" יותר, ומציעים קטעי קוד מבלי להבטיח את הדיוק הפונקציונלי שלהם.
מוצרים מקושרים: 10+ משפרי צילום AI הטובים ביותר בשנת 2023

האיכות של GPT-4 ו ChatGPT נחקר לאחר ניתוח של יכולות התכנות שלהם. עם זאת, מבט מקרוב מגלה כמה ניואנסים מרתקים הסותרים את הרושם הראשוני.

המחברים לא ביצעו או אימתו את תקינות הקוד; ההערכה שלהם התבססה אך ורק על תקפותו כקוד Python. בנוסף, נראה היה שהמודלים למדו טכניקת מסגור קוד ספציפית באמצעות דקורטור, מה שהפריע ללא כוונה לביצוע קוד.

כתוצאה מכך, מתברר שלא התוצאות ולא הניסוי עצמו יכולים להיחשב כעדות להתדרדרות המודל. במקום זאת, המודלים מדגימים גישה שונה ליצירת תגובות, שעלולה לשקף שינויים בהכשרתם.

בחינת יכולות התכנות והמתמטיקה של GPT-4 ו ChatGPT שפך אור על ממצאים מעניינים. בניגוד להנחות הראשוניות, המודלים הראו שיפורים בולטים בתחומים מסוימים תוך הצגת שינויים התנהגותיים באחרים.

בכל הנוגע למשימות תכנות, שני הדגמים הראו ירידה בתגובה להנחיות "שגויות", עם GPT-4 מפגינים הפחתה של יותר מפי ארבע במקרים כאלה. בנוסף, במשימה של חשיבה חזותית, איכות התגובות השתפרה בכמה נקודות אחוז עבור שני הדגמים. תצפיות אלו מצביעות על התקדמות ולא על ירידה בביצועים.

עם זאת, הערכת מיומנויות מתמטיות מציגה אלמנט מסקרן. המודלים סיפקו באופן עקבי מספרים ראשוניים כתשובות, מה שמצביע על תגובת "כן" עקבית. עם זאת, עם הצגת מספרים מרוכבים למדגם, התברר שהמודלים שינו את התנהגותם והחלו לספק תגובות "לא", מה שמרמז על אי ודאות ולא על ירידה באיכות. המבחן עצמו הוא מיוחד וחד צדדי, ואת תוצאותיו ניתן לייחס לשינויים בהתנהגות המודל ולא לירידה באיכות.

חשוב לציין שגרסאות ה-API נבדקו, ולא הגרסאות מבוססות הדפדפן. אמנם ייתכן שהדגמים בדפדפן עברו התאמות כדי לייעל את המשאבים, אבל המחקר המצורף לא defiלהוכיח באופן יזום את ההשערה הזו. ההשפעה של משמרות כאלה יכולה להיות דומה לשדרוג לאחור של המודל, מה שמוביל לאתגרים פוטנציאליים עבור משתמשים המסתמכים על עבודה ספציפית הנחיות וניסיון מצטבר.

במקרה של GPT-4 יישומי API, לסטיות הללו בהתנהגות יכולות להיות השלכות מוחשיות. קוד שפותח בהתבסס על צרכיו ומשימותיו של משתמש ספציפי עלול לא לתפקד עוד כמתוכנן אם המודל יעבור שינויים בהתנהגותו.

מומלץ למשתמשים לשלב שיטות בדיקה דומות בתהליכי העבודה שלהם. על ידי יצירת קבוצה של הנחיות, טקסטים נלווים ותוצאות צפויות, משתמשים יכולים לבדוק באופן קבוע אם יש עקביות בין הציפיות שלהם לבין תגובות המודל. ברגע שמתגלים חריגות, ניתן לנקוט באמצעים מתאימים לתיקון המצב.

קרא עוד על AI:

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

מאמרים נוספים
דמיר יללוב
דמיר יללוב

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

Hot Stories
הצטרף לניוזלטר שלנו.
חדשות אחרונות

התיאבון המוסדי גדל לקראת תעודות סל של ביטקוין על רקע תנודתיות

גילויים באמצעות הגשת 13F חושפים משקיעים מוסדיים בולטים שמתעסקים בתעודות סל של ביטקוין, מה שמדגיש הסכמה גוברת של ...

יודע יותר

יום גזר הדין מגיע: גורלה של CZ באיזון כאשר בית המשפט האמריקני שוקל את הטענה של DOJ

צ'אנגפנג ג'או עומד היום בפני גזר דין בבית משפט אמריקאי בסיאטל.

יודע יותר
הצטרף לקהילת הטכנולוגיה החדשנית שלנו
למידע נוסף
קראו עוד
אספרסו סיסטמס משתפת פעולה עם מעבדות פוליגון כדי לפתח את AggLayer לשיפור יכולת הפעולה ההדדית של אוסף
עסקים דיווח חדשות טכנולוגיה
אספרסו סיסטמס משתפת פעולה עם מעבדות פוליגון כדי לפתח את AggLayer לשיפור יכולת הפעולה ההדדית של אוסף
מאי 9, 2024
פרוטוקול תשתית מופעל על ידי ZKP ZKBase חושף מפת דרכים, מתכנן השקת Testnet במאי
דיווח חדשות טכנולוגיה
פרוטוקול תשתית מופעל על ידי ZKP ZKBase חושף מפת דרכים, מתכנן השקת Testnet במאי
מאי 9, 2024
BLOCKCHANCE ו-CONF3RENCE מתאחדים לגדולים בגרמניה Web3 ועידה בדורטמונד
עסקים שוקי תוכנה סיפורים וסקירות טכנולוגיה
BLOCKCHANCE ו-CONF3RENCE מתאחדים לגדולים בגרמניה Web3 ועידה בדורטמונד
מאי 9, 2024
NuLink משיקה ב-Bybit Web3 פלטפורמת IDO. שלב המנוי מתארך עד ה-13 במאי
שוקי דיווח חדשות טכנולוגיה
NuLink משיקה ב-Bybit Web3 פלטפורמת IDO. שלב המנוי מתארך עד ה-13 במאי
מאי 9, 2024
CRYPTOMERIA LABS PTE. בע"מ.