חוקרי בינה מלאכותית לימדו מודלים של שפות גדולות לשקר פחות
מאמץ שיתופי של למעלה מ-20 חוקרים ממגוון פינות התחום הוליד תחום מתפתח - הנדסת ייצוג (RepE). למרות שזה לא החקירה הראשונה מסוגה, המחברים מציגים הן תובנות תיאוריות והן מבססים אמות מידה מכריעות.
אז מהי בעצם הנדסת ייצוג? הוא סובב סביב התפיסה שלרשתות עצביות יש "מצבים נסתרים", שלמרות שמם, אינם עטופים בסודיות. מצבים אלה נגישים, ניתנים לשינוי וניתנים לצפייה (בתנאי שיש לו גישה למשקלים של המודל). בניגוד לפרמטרים, אלו הן ה"תגובות" של הרשת לכניסות ספציפיות, במיוחד במקרה של לימודי תואר שני, קלט טקסטואלי. ייצוגים נסתרים אלה הם כמו חלונות לתוך הפעילות הקוגניטיבית של המודל, תכונה שונה באופן מובהק מהמוח האנושי.
תוך הקבלה למדע הקוגניטיבי, המחברים מדגישים את הפוטנציאל למחקרים אנלוגיים. בתחום ההפעלה העצבית, תחום מקביל לנוירונים במוח, שוכנת ההבטחה למשמעות. בדיוק כפי שנוירונים מסוימים במוח האנושי מקושרים למושגים כמו קנדה או כנות, הפעלה זו יכולה להכיל תובנות.
הרעיון המרכזי כאן הוא לפענח כיצד אנו יכולים להשפיע על הפעלות עצביות אלו כדי לנווט את המודל לכיוונים הרצויים. למשל, זה הופך להיות סביר לאתר וקטור המייצג "כנות" ואז, תיאורטית, על ידי דחיפה של המודל לכיוון זה, להפחית את הסבירות שהוא יפיק פלטים מטעים. ניסוי קודם, "התערבות בזמן היסק: גיוס תשובות אמת ממודל שפה", הדגים את המעשיות של הרעיון הזה.
בעבודתם הנוכחית, החוקרים מתעמקים בכמה תחומים, כולל מוסר, רגשיות, חוסר מזיק ושינון. הם מציעים פתרון בצורה של LoRRA (התאמת ייצוג בדרג נמוך), טכניקה הכוללת אימון על מערך נתונים קטן עם תווית של כ-100 דוגמאות. כל דוגמה מסומנת, ומציינת תכונות כמו שקר (אם כי קיימת גישה חלופית המשתמשת בהנחיה).
התוצאות משכנעות. LLAMA-2-70B מתעלה GPT-4 בפער יוצא דופן במדד TruthfulQA, השגת דיוק טוב יותר של כמעט עשרה אחוזים (59% לעומת כ-69%). בנוסף, החוקרים שילבו דוגמאות רבות המציגות את שינויי התגובה של המודל לכיוונים שונים, ולשפוך אור על הרבגוניות והסתגלות שלו.
גישה חלוצית זו מגלמת נתיב חלופי לקראת יישור מודל, ובמקביל מציעה פרספקטיבה חדשה על פרשנות ושליטה במודל. זה גבול מבטיח, והציפייה להמשך האבולוציה שלו מורגשת.
לחקירה מעמיקה יותר עם דוגמאות מעשיות, אתה יכול לבקר באתר הייעודי שלהם: AI-Transparency.org.
כתב ויתור
בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.
על המחבר
דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.
מאמרים נוספיםדמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.