דיווח חדשות טכנולוגיה
במרץ 15, 2023

GPT-4 ביצועים טובים יותר GPT-3.5 בכל רחבי הלוח על מגוון מדדי מחקר

בקיצור

השמיים GPT-4 השיגה סף ציון גבוה יותר מה- GPT-3.5 על מגוון אמות מידה.

זהו הישג גדול מכיוון שהוא מראה שמכונות לא רק מסוגלות לאינטליגנציה כמו אנושית אלא גם יכולות להעלות עלינו ביצועים טובים יותר, מה שמעלה שאלות לגבי עתיד הבינה המלאכותית והשפעתה הפוטנציאלית על שוק העבודה.

GPT-4 זוכה לביצועים גבוהים יותר ממודלים חדישים (SOTA), כולל אלה המשתמשים בפרוטוקולי אימון נוספים או עיצוב ספציפי למדד, כמו גם מודלים קיימים של שפות גדולות.

השמיים GPT-4 השיגה ציונים גבוהים יותר מה- GPT-3.5 על מגוון אמות מידה. זוהי פריצת דרך גדולה עבור מכונות שכן היא מוכיחה שהן יכולות כעת לא רק לפתור בעיות שתוכננו עבורן במקור, אלא גם יכולות לעשות זאת טוב יותר מסטודנטים באוניברסיטה.

GPT-4 ביצועים טובים יותר GPT-3.5 על פני מגוון רחב של מדדי מחקר

יש כמה דברים שצריך לקחת בחשבון כשמסתכלים על תוצאה זו. ראשית, ה GPT-4 לא ניתנה הכשרה ספציפית לבחינות אלו. זה המשיך על ידי שימוש במבחנים העדכניים ביותר הזמינים לציבור (במקרה של האולימפיאדות ושאלות תגובה חופשית של AP) או על ידי רכישת מהדורות 2022–2023 של בחינות תרגול. שנית, חשוב לציין כי GPT-4ייתכן שהביצועים של הביצועים אינם משקפים בהכרח את היכולות של נבחנים אנושיים, מכיוון שהוא פועל על בסיס שונה של עקרונות ואלגוריתמים.

זהו הישג גדול כמו זה מראה שמכונות לא רק מסוגלות לאינטליגנציה כמו אנושית אלא גם יכולות להעלות עלינו ביצועים טובים יותר. זה סולל את הדרך לעתיד שבו מכונות יכולות לקחת על עצמן משימות מורכבות יותר ויותר, שבסופו של דבר יובילו לעתיד בו הן יכולות לסייע לנו בחיי היומיום שלנו.

השמיים GPT-4היכולת של בני אדם להתעלות על בני אדם במשימות מסוימות מעלה שאלות לגבי העתיד של בינה מלאכותית והשפעתו הפוטנציאלית על שוק העבודה. זה גם מדגיש את הצורך במחקר ופיתוח מתמשך בתחום זה כדי להבטיח שימוש ב-AI בצורה אתית ואחראית.
קרא עוד: 5+ דגמי הבינה המלאכותית של טקסט לתמונה הצפויים ביותר לשנת 2023

GPT-4, למשל, עובר בחינה מדומה של לשכת עורכי הדין עם ציון ב-10% המובילים של הנבחנים; GPT-3הציון של .5 היה ב-10% התחתונים. שיפור משמעותי זה ב GPT-4הביצועים של זה נובעים מנתוני האימון הגדולים יותר והארכיטקטורה המשופרת שלו. הוא צפוי להיות בעל מגוון רחב של יישומים בתחומים שונים, כולל עיבוד שפה טבעית וכתיבה אוטומטית.

 
GPT-4 מציג ביצועים ברמה אנושית ברוב הבחינות המקצועיות והאקדמיות הללו. ראוי לציין כי הוא עבר גרסה מדומה של בחינת הלשכה האחידה עם ציון ב-10% המובילים של הנבחנים. נראה כי יכולות המודל בבחינות נובעות בעיקר מתהליך ההכשרה ואינן מושפעות באופן משמעותי מ-RLHF. בשאלות רב-ברירה, הן הבסיס GPT-4 המודל ומודל ה-RLHF פעלו באותה מידה בממוצע בקרב מפתחי הבחינה שנבדקה.

רוב הדגמים החדישים ביותר (SOTA), כולל אלה שעשויים להשתמש בפרוטוקולי אימון נוספים או עיצוב ספציפי למדד, כמו גם גדולים קיימים מודלים של שפה, הם בעלי ביצועים גבוהים משמעותית על ידי GPT-4.

GPT-4הביצועים של במונחים של סטנדרטים אקדמיים. מפתחים מנוגדים GPT-4 עם ה-SOTA הטוב ביותר עבור זריקת מעט מוערכת LM, כמו גם ה-SOTA הטוב ביותר עם אימון ספציפי למבחן. למעט DROP, GPT-4 מתעלה על כל ה-LMs הנוכחיים בכל המדדים ו-SOTA עם הכשרה ספציפית ל-benchmark.

באופן פנימי, מפתחים השתמשו GPT-4, שהייתה לה השפעה משמעותית על פעילויות כמו תכנות, מכירות, תמיכה וניהול תוכן. השלב השני של שיטת היישור שלנו יוצא לדרך כאשר מפתחים משתמשים בה כדי לסייע לבני אדם בבדיקת תוצאות בינה מלאכותית.

מערך הנתונים של MMLU (Massive Multi-Task Language Understanding) מכיל שאלות ממגוון רחב מאוד של נושאים על הבנת שפה במשימות שונות (המתפרש על פני 57 תחומים, כולל מתמטיקה, ביולוגיה, משפטים, מדעי החברה והאנוש וכו'). ישנן ארבע תשובות אפשריות לשאלה, אחת מהן נכונה. כלומר, ניחוש אקראי מראה תוצאה של 25% תשובות נכונות. ראה את התמונה למטה לדוגמאות של שאלות והקשיים שלהן. סמן האדם הממוצע (כלומר, זה לא מדען, לא פרופסור - אדם רגיל שמאיר ירח כסימון) עונה נכון ל-35% מהשאלות; עם זאת, המומחים יכולים להגיע לציון של +/- 90%.

ביצוע של GPT-4 במגוון שפות בהשוואה לדגמים קודמים באנגלית ב-MMLU. GPT-4 עולה על הביצועים בשפה האנגלית של מודלים קיימים של שפות עבור הרוב הגדול של השפות שנבדקו, כולל שפות עם משאבים נמוכים כגון לטבית, ולשית וסווהילית.
קרא עוד: 5 סיבות להשתמש בבינג מופעל בינה מלאכותית מעל גוגל

במקור, כל מערך הנתונים היה באנגלית. אבל מה אם שאלות ותשובות מתורגמות לשפות אחרות, במיוחד לשפות פחות נפוצות? האם הדגם יעבוד עבורם איכשהו? בבדיקה זו נעשה שימוש בשירות Microsoft Azure Translate לתרגום. תרגומים אינם מושלמים; במקרים מסוימים, מידע חשוב הולך לאיבוד. עם זאת, גם במקרה זה, ה GPT-4 מתפקד היטב בשפות אחרות. בגרסאות המתורגמות של ה-MMLU, GPT-4 עולה על רמת האנגלית של דגמים גדולים אחרים (כולל של גוגל) ב-24 מתוך 26 השפות שנבדקו.

מה עוד, GPT-4 ביצועים טובים יותר בשפות נדירות מאשר ChatGPT עשה באנגלית (ChatGPT השיגה ציון של 70.1%, בעוד שהציון של הדגם החדש לתאילנדית היה 71.8%. הציון במבחן באנגלית היה הגבוה ביותר, עם GPT-4 ביצועים טובים ב-10% מדגמים אחרים, כולל ה-PALM הגדול ביותר מגוגל. היא השיגה ציון של 86.4%, בעוד שקבוצת מומחים — 90%.

  • עד קיץ 2023, AI עשויה להגיע לרמה חדשה של כוח בזכות ChatGPT, צ'אטבוט שמשתמש ב- GPT-4 אלגוריתם ו ביצועים טובים יותר GPT-3 לפי גורם של 570. מגוון אלמנטים תורמים ChatGPTהצלחתה, כולל העיצוב שלה להיות יותר "דמוי אנושי" והשימוש שלה בכריית נתונים מתקדמים ועיבוד שפה טבעית כדי להגביר את האפקטיביות והדיוק שלה.
  • מיקרוסופט ו- OpenAI הכריזו על חידוש שיתוף הפעולה שלהם ומתכננים לחיפוש Bing לאמץ יכולות חיפוש משופרות בינה מלאכותית בינואר. המתוחכם מאוד GPTהחלפת דגם 3.5, GPT4, זה עתה הושק, ויש לו פוטנציאל לשפר מאוד את היכולת של חיפוש Bing להבין שאילתות בשפה טבעית ולספק תוצאות מדויקות יותר. זה רעיון טוב שתהיה לך תוכנית גיבוי טובה למקרה שמשהו ישתבש.

קרא עוד חדשות קשורות:

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

מאמרים נוספים
דמיר יללוב
דמיר יללוב

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

Hot Stories
הצטרף לניוזלטר שלנו.
חדשות אחרונות

התיאבון המוסדי גדל לקראת תעודות סל של ביטקוין על רקע תנודתיות

גילויים באמצעות הגשת 13F חושפים משקיעים מוסדיים בולטים שמתעסקים בתעודות סל של ביטקוין, מה שמדגיש הסכמה גוברת של ...

יודע יותר

יום גזר הדין מגיע: גורלה של CZ באיזון כאשר בית המשפט האמריקני שוקל את הטענה של DOJ

צ'אנגפנג ג'או עומד היום בפני גזר דין בבית משפט אמריקאי בסיאטל.

יודע יותר
הצטרף לקהילת הטכנולוגיה החדשנית שלנו
למידע נוסף
קראו עוד
Injective מאחדת כוחות עם AltLayer כדי להביא אבטחה מחדש ל-inEVM
עסקים דיווח חדשות טכנולוגיה
Injective מאחדת כוחות עם AltLayer כדי להביא אבטחה מחדש ל-inEVM
מאי 3, 2024
מאסה משתפת פעולה עם Teller כדי להציג את מאגר ההלוואות של MASA, מאפשרת הלוואות ב-USDC על בסיס
שוקי דיווח חדשות טכנולוגיה
מאסה משתפת פעולה עם Teller כדי להציג את מאגר ההלוואות של MASA, מאפשרת הלוואות ב-USDC על בסיס
מאי 3, 2024
Velodrome משיקה את גרסת הבטא של Superchain בשבועות הקרובים ומתרחבת ברחבי OP Stack Layer 2 Blockchains
שוקי דיווח חדשות טכנולוגיה
Velodrome משיקה את גרסת הבטא של Superchain בשבועות הקרובים ומתרחבת ברחבי OP Stack Layer 2 Blockchains
מאי 3, 2024
CARV מכריזה על שותפות עם Aethir לביזור שכבת הנתונים שלה ולחלוקת תגמולים
עסקים דיווח חדשות טכנולוגיה
CARV מכריזה על שותפות עם Aethir לביזור שכבת הנתונים שלה ולחלוקת תגמולים
מאי 3, 2024
CRYPTOMERIA LABS PTE. בע"מ.