GPT-4 ביצועים טובים יותר GPT-3.5 בכל רחבי הלוח על מגוון מדדי מחקר
בקיצור
השמיים GPT-4 השיגה סף ציון גבוה יותר מה- GPT-3.5 על מגוון אמות מידה.
זהו הישג גדול מכיוון שהוא מראה שמכונות לא רק מסוגלות לאינטליגנציה כמו אנושית אלא גם יכולות להעלות עלינו ביצועים טובים יותר, מה שמעלה שאלות לגבי עתיד הבינה המלאכותית והשפעתה הפוטנציאלית על שוק העבודה.
GPT-4 זוכה לביצועים גבוהים יותר ממודלים חדישים (SOTA), כולל אלה המשתמשים בפרוטוקולי אימון נוספים או עיצוב ספציפי למדד, כמו גם מודלים קיימים של שפות גדולות.
השמיים GPT-4 השיגה ציונים גבוהים יותר מה- GPT-3.5 על מגוון אמות מידה. זוהי פריצת דרך גדולה עבור מכונות שכן היא מוכיחה שהן יכולות כעת לא רק לפתור בעיות שתוכננו עבורן במקור, אלא גם יכולות לעשות זאת טוב יותר מסטודנטים באוניברסיטה.
יש כמה דברים שצריך לקחת בחשבון כשמסתכלים על תוצאה זו. ראשית, ה GPT-4 לא ניתנה הכשרה ספציפית לבחינות אלו. זה המשיך על ידי שימוש במבחנים העדכניים ביותר הזמינים לציבור (במקרה של האולימפיאדות ושאלות תגובה חופשית של AP) או על ידי רכישת מהדורות 2022–2023 של בחינות תרגול. שנית, חשוב לציין כי GPT-4ייתכן שהביצועים של הביצועים אינם משקפים בהכרח את היכולות של נבחנים אנושיים, מכיוון שהוא פועל על בסיס שונה של עקרונות ואלגוריתמים.
זהו הישג גדול כמו זה מראה שמכונות לא רק מסוגלות לאינטליגנציה כמו אנושית אלא גם יכולות להעלות עלינו ביצועים טובים יותר. זה סולל את הדרך לעתיד שבו מכונות יכולות לקחת על עצמן משימות מורכבות יותר ויותר, שבסופו של דבר יובילו לעתיד בו הן יכולות לסייע לנו בחיי היומיום שלנו.
GPT-4, למשל, עובר בחינה מדומה של לשכת עורכי הדין עם ציון ב-10% המובילים של הנבחנים; GPT-3הציון של .5 היה ב-10% התחתונים. שיפור משמעותי זה ב GPT-4הביצועים של זה נובעים מנתוני האימון הגדולים יותר והארכיטקטורה המשופרת שלו. הוא צפוי להיות בעל מגוון רחב של יישומים בתחומים שונים, כולל עיבוד שפה טבעית וכתיבה אוטומטית.
רוב הדגמים החדישים ביותר (SOTA), כולל אלה שעשויים להשתמש בפרוטוקולי אימון נוספים או עיצוב ספציפי למדד, כמו גם גדולים קיימים מודלים של שפה, הם בעלי ביצועים גבוהים משמעותית על ידי GPT-4.
באופן פנימי, מפתחים השתמשו GPT-4, שהייתה לה השפעה משמעותית על פעילויות כמו תכנות, מכירות, תמיכה וניהול תוכן. השלב השני של שיטת היישור שלנו יוצא לדרך כאשר מפתחים משתמשים בה כדי לסייע לבני אדם בבדיקת תוצאות בינה מלאכותית.
מערך הנתונים של MMLU (Massive Multi-Task Language Understanding) מכיל שאלות ממגוון רחב מאוד של נושאים על הבנת שפה במשימות שונות (המתפרש על פני 57 תחומים, כולל מתמטיקה, ביולוגיה, משפטים, מדעי החברה והאנוש וכו'). ישנן ארבע תשובות אפשריות לשאלה, אחת מהן נכונה. כלומר, ניחוש אקראי מראה תוצאה של 25% תשובות נכונות. ראה את התמונה למטה לדוגמאות של שאלות והקשיים שלהן. סמן האדם הממוצע (כלומר, זה לא מדען, לא פרופסור - אדם רגיל שמאיר ירח כסימון) עונה נכון ל-35% מהשאלות; עם זאת, המומחים יכולים להגיע לציון של +/- 90%.
במקור, כל מערך הנתונים היה באנגלית. אבל מה אם שאלות ותשובות מתורגמות לשפות אחרות, במיוחד לשפות פחות נפוצות? האם הדגם יעבוד עבורם איכשהו? בבדיקה זו נעשה שימוש בשירות Microsoft Azure Translate לתרגום. תרגומים אינם מושלמים; במקרים מסוימים, מידע חשוב הולך לאיבוד. עם זאת, גם במקרה זה, ה GPT-4 מתפקד היטב בשפות אחרות. בגרסאות המתורגמות של ה-MMLU, GPT-4 עולה על רמת האנגלית של דגמים גדולים אחרים (כולל של גוגל) ב-24 מתוך 26 השפות שנבדקו.
מה עוד, GPT-4 ביצועים טובים יותר בשפות נדירות מאשר ChatGPT עשה באנגלית (ChatGPT השיגה ציון של 70.1%, בעוד שהציון של הדגם החדש לתאילנדית היה 71.8%. הציון במבחן באנגלית היה הגבוה ביותר, עם GPT-4 ביצועים טובים ב-10% מדגמים אחרים, כולל ה-PALM הגדול ביותר מגוגל. היא השיגה ציון של 86.4%, בעוד שקבוצת מומחים — 90%.
- עד קיץ 2023, AI עשויה להגיע לרמה חדשה של כוח בזכות ChatGPT, צ'אטבוט שמשתמש ב- GPT-4 אלגוריתם ו ביצועים טובים יותר GPT-3 לפי גורם של 570. מגוון אלמנטים תורמים ChatGPTהצלחתה, כולל העיצוב שלה להיות יותר "דמוי אנושי" והשימוש שלה בכריית נתונים מתקדמים ועיבוד שפה טבעית כדי להגביר את האפקטיביות והדיוק שלה.
- מיקרוסופט ו- OpenAI הכריזו על חידוש שיתוף הפעולה שלהם ומתכננים לחיפוש Bing לאמץ יכולות חיפוש משופרות בינה מלאכותית בינואר. המתוחכם מאוד GPTהחלפת דגם 3.5, GPT4, זה עתה הושק, ויש לו פוטנציאל לשפר מאוד את היכולת של חיפוש Bing להבין שאילתות בשפה טבעית ולספק תוצאות מדויקות יותר. זה רעיון טוב שתהיה לך תוכנית גיבוי טובה למקרה שמשהו ישתבש.
קרא עוד חדשות קשורות:
כתב ויתור
בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.
על המחבר
דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.
מאמרים נוספיםדמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.