חוקרים קוראים תיגר על הרעיון של 'יכולות מתעוררות' של מודלים שפה גדולים
בקיצור
אפוקליפסת AGI היא דאגה עקב תופעת דגמי השפה הגדולים פתאום הפגנת יכולות שנראה שאין לדגמים קטנים יותר.
תופעה זו נקראת "יכולות מתעוררות של מודלים של שפה גדולה".
מחברי המאמר "האם היכולות המתעוררות של דגמי שפה גדולים הם מיראז'?" טוענים שההשפעה של יכולות מתעוררות אינה תעתוע, אלא צמיחה צפויה ביכולת לבצע משימות.
הם מראים שלפחות ל-92% מהבעיות של Big Bench אין פריצת דרך פתאומית עבור דגמים גדולים, ואיכות הדגמים שלהם גדלה בצורה חלקה וצפויה ככל שגודל הדגמים גדל.
בבדיקה עדכנית של היכולות הפוטנציאליות של מודלים של שפה גדולים, החוקרים קוראים תיגר על הרעיון של "יכולות מתעוררות" ושופכים אור על היבט צפוי יותר של הפונקציונליות שלהם. המאמר שכותרתו "חשיפת המציאות של היכולות המתהוות של מודלים לשוניים גדולים" מביאה לתשומת לב את הפרשנות השגויה של מדדים שהובילה לתפיסה המוטעית שמודלים אלו רוכשים באופן ספונטני מיומנויות מתקדמות.
הקונספט של "יכולות מתעוררות" בהקשר של מודלים שפה גדולים, כגון ה GPT סדרה, עוררה חששות בנוגע לפוטנציאל של דגמים אלה לפתח יכולות בלתי צפויות הדומות לתודעה האנושית. מאמר זה טוען כי הנחות אלו התבססו על הבנה לקויה של ההתנהגות והיכולות בפועל של המודלים.
התופעה הנפוצה, שבה מודלים גדולים יותר רוכשים לכאורה יכולות חדשות כמו חשיבה מופשטת, פתרון בעיות ואפילו הומור, הוטבעה ל"יכולות המתעוררות של מודלים לשוניים גדולים". מחברי המאמר טוענים כי יכולות אלו אינן ספונטניות כפי שהן נראות, אלא תוצאה של מדדי הערכה מטעים.
כדי להמחיש את עמדתם, החוקרים רואים במשימה של "נחש את החידה", בעיה שבה מודל השפה נדרש להבין חידת שפה טבעית ולהגיב בתשובה הנכונה בשפה טבעית. באופן מסורתי, איכות התגובות הוערכה באמצעות מדד בינארי: תגובה זוכה לציון 1 אם היא תואמת בדיוק את התשובה הנכונה, וציון של 0 אחרת.
עיקר העניין טמון ברגישות המדד למורכבות המשימה ולמספר פרמטרי המודל. החוקרים מגלים שמדד בינארי זה מוביל ל-a תפיסה מתעתעת של "יכולות מתעוררות". מודלים קטנים יותר מציגים לרוב דיוק זניח (eps) במדד זה, בעוד שדגמים גדולים יותר, במיוחד אלה עם ספירת פרמטרים גבוהה, משיגים רמות דיוק יוצאות דופן (acc > 0.5).
המאמר טוען כי השינוי לכאורה ביכולת זה אינו מעיד על מודלים הרוכשים באופן ספונטני מיומנויות מורכבות. במקום זאת, יכולתם של המודלים להבין ולייצר תגובות ניואנסיות יותר נובעת מהערכה מדוקדקת יותר של התפוקות שלהם. על ידי התמקדות בהתאמה הסתברותית ובקוהרנטיות סמנטית במקום בהתאמות מחרוזות מדויקות, החוקרים מראים כי התקדמות הדוגמניות בביצועים עוקבים אחר מסלול הגיוני יותר, ללא קשר לגודלם.
מוצרים מקושרים: האבולוציה של צ'טבוטים מ-T9-Era ו GPT-1 ל ChatGPT |
חקירת התפתחות ביצועי מודל עם שינוי פרמטרים
בחקירה אנליטית, חוקרים חושפים את המכניקה העדינה מאחורי "היכולות המתעוררות" הנתפסות של מודלים גדולים לשפה. המחקר מטיל ספק בהשפעה של מדדים סופר-דיסקרטים בהערכת ביצועי המודל ומבהיר הבנה חזויה יותר של היכולות שלהם ככל שפרמטרי המודל מתרחבים.
התפיסה הרווחת של "יכולות מתעוררות" במודלים של שפה נרחבת כבשה דיונים והעלתה חששות לגבי פריצות דרך אפשריות. מחקר זה מבקש להפריד את המכניקה העומדת בבסיס תופעה זו ולפענח האם המודלים הללו אכן מציגים יכולות פתאומיות חסרות תקדים או שניתן לייחס את ההתקדמות הנתפסת הללו לגורם אחר.
בלב המחקר עומדת הערכה מדוקדקת של המדדים המשמשים לאמוד את ביצועי המודל. החוקרים טוענים שהשימוש במדדים סופר-דיסקרטים, במיוחד המדד הבינארי הקונבנציונלי הקובע התאמות מדויקות של מחרוזות, עלול לעוות את הפרשנות של גדולות יכולות מודל שפה. המחקר מנתח בקפדנות כיצד התפלגות ההסתברות של תשובות שנוצרו על ידי מודל מתפתחת כקנה מידה של פרמטרי מודל.
בניגוד לרעיון של "יכולות מתעוררות", המחקר חושף מגמה שיטתית יותר. ככל שגודל המודל גדל, משתפרת יכולתו להקצות הסתברויות גבוהות יותר לתשובות מתאימות והסתברויות נמוכות יותר לשגויות. זה משקף שיפור עקבי ביכולת של הדגם לפתור בעיות בצורה מיומנת במגוון רחב של גדלים. למעשה, המחקר מצביע על כך שתהליך הלמידה של המודלים עוקב אחריdefiיש מסלול של שיפור במקום קפיצה פתאומית.
המחברים מציגים שינוי פרדיגמה על ידי הצעה להחלפת מדדים בדידים בערכים מתמשכים. שינוי זה מציע תמונה ברורה יותר של התפתחות הביצועים. באמצעות הניתוח שלהם, החוקרים קובעים כי כ-92% מה- בעיות ב-Big Bench מציגים צמיחה חלקה וצפויה באיכות ככל שגודל הדגם מתרחב. ממצא זה מאתגר את הרעיון שדגמים גדולים יותר חווים פריצות דרך פתאומיות ובמקום זאת מדגיש התקדמות הדרגתית ומצופה יותר.
המחקר מרחיב את התובנות שלו כדי לאמת את טענותיו. זה מדגים כי ניתן לדמות באופן מלאכותי את אותו אפקט "יכולת מתעוררת" באמצעות מקודדים אוטומטיים קונבנציונליים, דבר המצביע על כך שבחירת המדדים משפיעה באופן משמעותי על התוצאות הנתפסות. גילוי זה מרחיב את היקף ההשלכות של המחקר, ומוכיח את הרלוונטיות שלו מעבר למודלים של שפה בלבד.
החוקרים מדגישים שתוצאותיהם לא defiלשלול באופן ניטיבי את הפוטנציאל ל"יכולות מתעוררות" או תודעה במודלים של שפה גדולים. עם זאת, הממצאים שלהם מעודדים חוקרים לגשת לטענות כאלה בפרספקטיבה ניואנסית. במקום להחיש ולגבש מסקנות קיצוניות, המחקר מדגיש את החשיבות של חקירה מדוקדקת וניתוח מקיף.
קרא עוד על AI:
כתב ויתור
בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.
על המחבר
דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.
מאמרים נוספיםדמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.