דיווח חדשות SMW טכנולוגיה
מאי 30, 2023

GPT-4הביצועים של בחינת עורכי הדין בארה"ב סותרים את טענותיה

בקיצור

הבדיקה של GPT-4הביצועים של מבחן הלשכה האחיד חשפו אי התאמה בין ביצועים משוערים לביצועים בפועל, והדגיש את החשיבות של נהלי הערכה שקופים ונתונים נגישים.

OpenAI מעודדים לטפל בפערים ולפתח גישה כוללת ואמינה יותר להערכת מודלים של AI כדי להשיג אמון ולהבטיח אמינות.

בבדיקה לאחרונה של GPT-4הביצועים של בחינת הלשכה האחידה (EBU), התעוררו ספקות לגבי הדיוק של OpenAIהטענות של הדגם לגבי אחוזי ההצלחה של הדגם. בניגוד לטענה הראשונית ש GPT-4 עולה על 90% מהאנשים, הממצאים מצביעים על פער משמעותי בין הביצועים המשוערים לביצועים בפועל של מודל הבינה המלאכותית. גילוי זה מדגיש את החשיבות של הליכי הערכה שקופים ונתונים נגישים לאימות טענות מסוג זה.

GPT-4הביצועים של בחינת עורכי הדין בארה"ב סותרים את טענותיה
@Midjourney

הבדיקה התמקדה בגורמים שונים כדי לברר את היכולות האמיתיות של GPT-4. ראשית, ה אנליזה מבחינות פברואר באילינוי גילו את זה GPT-4הציונים של התקרבו ל אחוזון 90. עם זאת, נצפה כי ציונים אלו הושפעו במידה רבה על ידי חוזרים שנכשלו בעבר בבחינת יולי ובכך קיבלו ציון מתחת לממוצע הכולל.

יתר על כן, תוצאות הבחינה ביולי סתרו OpenAIהטענות של, חושף את זה GPT-4 היה רק ביצועים טובים יותר 68% מהאנשים ו-48% מהחיבורים. GPT-4הביצועים של נבדקים בפעם הראשונה (למעט נסיונות חוזרות) הוערכו באחוזון ה-63 כאשר נבדקו נתונים רשמיים ממספר מבחנים בתקופות שונות, כאשר מאמרים ציינו נמוך משמעותית באחוזון ה-41.

פרספקטיבה נוספת הושגה על ידי בחינת ביצועיהם של אלו שעברו את הבחינה, לרבות בעלי רישיון ואלה הממתינים לרישוי. בעניין זה, GPT-4הביצועים הכוללים של האחוזון דורגו באחוזון ה-48, כאשר מאמרים היו גרועים עוד יותר באחוזון ה-15.

למרות שממצאים אלה מטרידים, חשוב לשקול את האפשרות של טעות אנוש בתהליך הבדיקה. מחבר המאמר מדגיש את החשיבות של הבנת המדגם בו השתמשו החוקרים להערכתו GPT-4הביצועים של. היעדר נתונים רשמיים, במיוחד בצורה מצטברת, מקשה על השוואה הוגנת והערכה של אחוזונים. יצירת טכניקות הערכה ברורות ונגישות שניתן להעריך על ידי כל בעלי העניין היא קריטית.

בתגובה לחששות אלה, OpenAI מוזמן לטפל בפערים ו לספק תובנות נוספות לתוך תהליך ההערכה. שקיפות ופתיחות חיוניות להשגת אמון ולהבטחת האמינות של מודלים של בינה מלאכותית בתחומים עתירי סיכון כמו משפטים.

יש לציין כי המאמר אינו דן בציון הספציפי שהושג על ידי GPT-4, אשר מדווחים להיות 298. הערכת המשמעות של ציון זה מחייבת הבנה הקשרית של שיטת הציונים המשמשת. כשם שילד חוזר מבית הספר עם B יכול להיות סיבה לחגיגה או אכזבה, הפרשנות של GPT-4הציון של תלוי בסולם המופעל.

הערכה של GPT-4הביצועים של הלשכה מעורר חששות רציניים על אמיתות OpenAIהקביעות הראשוניות של. הפער בין ביצועים משוערים לביצועים בפועל מדגיש את החשיבות של מערכות הערכה ברורות ונתונים נגישים בקלות. OpenAI מעודדים להתמודד עם האתגרים הללו ולפתח תחום כוללני יותר גישה אמינה ל-AI הערכת מודל.

קרא עוד על AI:

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

מאמרים נוספים
דמיר יללוב
דמיר יללוב

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

Hot Stories
הצטרף לניוזלטר שלנו.
חדשות אחרונות

יום גזר הדין מגיע: גורלה של CZ באיזון כאשר בית המשפט האמריקני שוקל את הטענה של DOJ

צ'אנגפנג ג'או עומד היום בפני גזר דין בבית משפט אמריקאי בסיאטל.

יודע יותר

מייסדי ארנק סמוראי הואשמו בהנחיית 2 מיליארד דולר בעסקאות Darknet

החשש של מייסדי ארנק סמוראי מייצג כישלון בולט עבור התעשייה, המדגיש את ...

יודע יותר
הצטרף לקהילת הטכנולוגיה החדשנית שלנו
למידע נוסף
קרא עוד
Bitcoin L2 Network BOB משתלב עם LayerZero לפונקציונליות משופרת
עסקים דיווח חדשות טכנולוגיה
Bitcoin L2 Network BOB משתלב עם LayerZero לפונקציונליות משופרת
מאי 1, 2024
רנסנס הבינה המלאכותית בפיתוח משחקים בשנת 2024
AI Wiki Metaverse Wiki חינוך שוקי תוכנה טכנולוגיה
רנסנס הבינה המלאכותית בפיתוח משחקים בשנת 2024
מאי 1, 2024
בתוך המעבדה החדשה לחדשנות בינה מלאכותית של אסתי לאודר: מבט מקרוב על האופן שבו בינה מלאכותית מחוללת משנה מותגי יופי
סגנון חיים תוכנה סיפורים וסקירות טכנולוגיה
בתוך המעבדה החדשה לחדשנות בינה מלאכותית של אסתי לאודר: מבט מקרוב על האופן שבו בינה מלאכותית מחוללת משנה מותגי יופי
מאי 1, 2024
Chainlink והוספה מהירה משתפים פעולה לפיתוח מתאם בלוקצ'יין מבוסס CCIP
עסקים דיווח חדשות טכנולוגיה
Chainlink והוספה מהירה משתפים פעולה לפיתוח מתאם בלוקצ'יין מבוסס CCIP
מאי 1, 2024
CRYPTOMERIA LABS PTE. בע"מ.