GPT-4הביצועים של בחינת עורכי הדין בארה"ב סותרים את טענותיה
בקיצור
הבדיקה של GPT-4הביצועים של מבחן הלשכה האחיד חשפו אי התאמה בין ביצועים משוערים לביצועים בפועל, והדגיש את החשיבות של נהלי הערכה שקופים ונתונים נגישים.
OpenAI מעודדים לטפל בפערים ולפתח גישה כוללת ואמינה יותר להערכת מודלים של AI כדי להשיג אמון ולהבטיח אמינות.
בבדיקה לאחרונה של GPT-4הביצועים של בחינת הלשכה האחידה (EBU), התעוררו ספקות לגבי הדיוק של OpenAIהטענות של הדגם לגבי אחוזי ההצלחה של הדגם. בניגוד לטענה הראשונית ש GPT-4 עולה על 90% מהאנשים, הממצאים מצביעים על פער משמעותי בין הביצועים המשוערים לביצועים בפועל של מודל הבינה המלאכותית. גילוי זה מדגיש את החשיבות של הליכי הערכה שקופים ונתונים נגישים לאימות טענות מסוג זה.
הבדיקה התמקדה בגורמים שונים כדי לברר את היכולות האמיתיות של GPT-4. ראשית, ה אנליזה מבחינות פברואר באילינוי גילו את זה GPT-4הציונים של התקרבו ל אחוזון 90. עם זאת, נצפה כי ציונים אלו הושפעו במידה רבה על ידי חוזרים שנכשלו בעבר בבחינת יולי ובכך קיבלו ציון מתחת לממוצע הכולל.
יתר על כן, תוצאות הבחינה ביולי סתרו OpenAIהטענות של, חושף את זה GPT-4 היה רק ביצועים טובים יותר 68% מהאנשים ו-48% מהחיבורים. GPT-4הביצועים של נבדקים בפעם הראשונה (למעט נסיונות חוזרות) הוערכו באחוזון ה-63 כאשר נבדקו נתונים רשמיים ממספר מבחנים בתקופות שונות, כאשר מאמרים ציינו נמוך משמעותית באחוזון ה-41.
פרספקטיבה נוספת הושגה על ידי בחינת ביצועיהם של אלו שעברו את הבחינה, לרבות בעלי רישיון ואלה הממתינים לרישוי. בעניין זה, GPT-4הביצועים הכוללים של האחוזון דורגו באחוזון ה-48, כאשר מאמרים היו גרועים עוד יותר באחוזון ה-15.
למרות שממצאים אלה מטרידים, חשוב לשקול את האפשרות של טעות אנוש בתהליך הבדיקה. מחבר המאמר מדגיש את החשיבות של הבנת המדגם בו השתמשו החוקרים להערכתו GPT-4הביצועים של. היעדר נתונים רשמיים, במיוחד בצורה מצטברת, מקשה על השוואה הוגנת והערכה של אחוזונים. יצירת טכניקות הערכה ברורות ונגישות שניתן להעריך על ידי כל בעלי העניין היא קריטית.
בתגובה לחששות אלה, OpenAI מוזמן לטפל בפערים ו לספק תובנות נוספות לתוך תהליך ההערכה. שקיפות ופתיחות חיוניות להשגת אמון ולהבטחת האמינות של מודלים של בינה מלאכותית בתחומים עתירי סיכון כמו משפטים.
יש לציין כי המאמר אינו דן בציון הספציפי שהושג על ידי GPT-4, אשר מדווחים להיות 298. הערכת המשמעות של ציון זה מחייבת הבנה הקשרית של שיטת הציונים המשמשת. כשם שילד חוזר מבית הספר עם B יכול להיות סיבה לחגיגה או אכזבה, הפרשנות של GPT-4הציון של תלוי בסולם המופעל.
הערכה של GPT-4הביצועים של הלשכה מעורר חששות רציניים על אמיתות OpenAIהקביעות הראשוניות של. הפער בין ביצועים משוערים לביצועים בפועל מדגיש את החשיבות של מערכות הערכה ברורות ונתונים נגישים בקלות. OpenAI מעודדים להתמודד עם האתגרים הללו ולפתח תחום כוללני יותר גישה אמינה ל-AI הערכת מודל.
קרא עוד על AI:
כתב ויתור
בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.
על המחבר
דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.
מאמרים נוספיםדמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.