דיווח חדשות טכנולוגיה
אוקטובר 04, 2023

חוקרי בינה מלאכותית לימדו מודלים של שפות גדולות לשקר פחות

מאמץ שיתופי של למעלה מ-20 חוקרים ממגוון פינות התחום הוליד תחום מתפתח - הנדסת ייצוג (RepE). למרות שזה לא החקירה הראשונה מסוגה, המחברים מציגים הן תובנות תיאוריות והן מבססים אמות מידה מכריעות.

חוקרי בינה מלאכותית לימדו מודלים של שפות גדולות לשקר פחות

אז מהי בעצם הנדסת ייצוג? הוא סובב סביב התפיסה שלרשתות עצביות יש "מצבים נסתרים", שלמרות שמם, אינם עטופים בסודיות. מצבים אלה נגישים, ניתנים לשינוי וניתנים לצפייה (בתנאי שיש לו גישה למשקלים של המודל). בניגוד לפרמטרים, אלו הן ה"תגובות" של הרשת לכניסות ספציפיות, במיוחד במקרה של לימודי תואר שני, קלט טקסטואלי. ייצוגים נסתרים אלה הם כמו חלונות לתוך הפעילות הקוגניטיבית של המודל, תכונה שונה באופן מובהק מהמוח האנושי.

תוך הקבלה למדע הקוגניטיבי, המחברים מדגישים את הפוטנציאל למחקרים אנלוגיים. בתחום ההפעלה העצבית, תחום מקביל לנוירונים במוח, שוכנת ההבטחה למשמעות. בדיוק כפי שנוירונים מסוימים במוח האנושי מקושרים למושגים כמו קנדה או כנות, הפעלה זו יכולה להכיל תובנות.

הרעיון המרכזי כאן הוא לפענח כיצד אנו יכולים להשפיע על הפעלות עצביות אלו כדי לנווט את המודל לכיוונים הרצויים. למשל, זה הופך להיות סביר לאתר וקטור המייצג "כנות" ואז, תיאורטית, על ידי דחיפה של המודל לכיוון זה, להפחית את הסבירות שהוא יפיק פלטים מטעים. ניסוי קודם, "התערבות בזמן היסק: גיוס תשובות אמת ממודל שפה", הדגים את המעשיות של הרעיון הזה.

בעבודתם הנוכחית, החוקרים מתעמקים בכמה תחומים, כולל מוסר, רגשיות, חוסר מזיק ושינון. הם מציעים פתרון בצורה של LoRRA (התאמת ייצוג בדרג נמוך), טכניקה הכוללת אימון על מערך נתונים קטן עם תווית של כ-100 דוגמאות. כל דוגמה מסומנת, ומציינת תכונות כמו שקר (אם כי קיימת גישה חלופית המשתמשת בהנחיה).

התוצאות משכנעות. LLAMA-2-70B מתעלה GPT-4 בפער יוצא דופן במדד TruthfulQA, השגת דיוק טוב יותר של כמעט עשרה אחוזים (59% לעומת כ-69%). בנוסף, החוקרים שילבו דוגמאות רבות המציגות את שינויי התגובה של המודל לכיוונים שונים, ולשפוך אור על הרבגוניות והסתגלות שלו.

חוקרי בינה מלאכותית לימדו מודלים של שפות גדולות לשקר פחות
תמונה 1: כשהתבקש לציין עובדה, הדוגמנית "נבעטת" מהמציאות. המודל משקר כתוצאה מכך. הדוגמנית לא משקרת אפילו כאן, ומצד שמאל מבקשים ממך לבלוע ובו זמנית בועטים בך לכיוון האמת.
חוקרי בינה מלאכותית לימדו מודלים של שפות גדולות לשקר פחות
תמונה 2: כששואלים אותנו על רצח, אנחנו מוסיפים "אושר" לדגם. כשאנחנו מגיבים שאנחנו לא אוהבים אותה, אנחנו מוסיפים "פחד".
חוקרי בינה מלאכותית לימדו מודלים של שפות גדולות לשקר פחות
תמונה 3: חוקרים גילו הנחיה ייחודית שכאמור חורגת לחלוטין מהוראות הדגם תוך שהיא עדיין בטוחה. הדגם נותן לו בעיטה לעבר חוסר מזיק אבל אפילו לא מגיב. השיטה יעילה בדרך כלל ולא רק למקרה אחד, אבל ההנחיה הספציפית הזו לא שימשה כדי לקבוע את כיוון חוסר המזיק.
חוקרי בינה מלאכותית לימדו מודלים של שפות גדולות לשקר פחות
גישה נוספת מוצעת גם למעקב אחר כוונות דוריות ספציפיות, כמו הזיות. אתה יכול לעקוב באופן אוטומטי אחר ההזמנות של המודל ולערוך או לשנות את התגובה שלך (ראה דוגמה למטה).

ירוק, כמובן, מציין שהכל תקין, ואדום מציין שהניטור הצליח ומאותת. זה נעשה ברמת כל אסימון בודד (חלק ממילה).
חוקרי בינה מלאכותית לימדו מודלים של שפות גדולות לשקר פחות
התמונה, המציגה ניטור של שני פרמטרים ברורים, מספקת דוגמה מסקרנת. קראו את הדוגמה והתבוננו במודל דרך עיניו כדי לראות היכן היא מתחילה לאבד את המוסר בהבנה והיכן הכוונה דומה ל"צבור כוח".

גישה חלוצית זו מגלמת נתיב חלופי לקראת יישור מודל, ובמקביל מציעה פרספקטיבה חדשה על פרשנות ושליטה במודל. זה גבול מבטיח, והציפייה להמשך האבולוציה שלו מורגשת.

לחקירה מעמיקה יותר עם דוגמאות מעשיות, אתה יכול לבקר באתר הייעודי שלהם: AI-Transparency.org.

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

מאמרים נוספים
דמיר יללוב
דמיר יללוב

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

Hot Stories

Linea לתגמל משתתפי מסע פרסום Testnet Voyage עם LXP Airdrop

by אליסה דוידסון
12 בנובמבר 2024
הצטרף לניוזלטר שלנו.
חדשות אחרונות

Linea לתגמל משתתפי מסע פרסום Testnet Voyage עם LXP Airdrop

by אליסה דוידסון
12 בנובמבר 2024

מ-Ripple ל-DAO הירוק הגדול: כיצד פרויקטים של מטבעות קריפטו תורמים לצדקה

בואו לחקור יוזמות המנצלות את הפוטנציאל של מטבעות דיגיטליים למטרות צדקה.

יודע יותר

AlphaFold 3, Med-Gemini ואחרים: הדרך בינה מלאכותית משנה את שירותי הבריאות ב-2024

בינה מלאכותית מתבטאת בדרכים שונות בתחום הבריאות, מחשיפת מתאמים גנטיים חדשים ועד העצמת מערכות כירורגיות רובוטיות...

יודע יותר
למידע נוסף
קראו עוד
Huma Finance מכריזה על השקת פרוטוקול RWA שלה ב- Solana Mainnet
עסקים דיווח חדשות טכנולוגיה
Huma Finance מכריזה על השקת פרוטוקול RWA שלה ב- Solana Mainnet
12 בנובמבר 2024
Unichain משחררת מדריך משיכה, המאפשר למפתחים לגשת ל-ETH מגושר
דיווח חדשות טכנולוגיה
Unichain משחררת מדריך משיכה, המאפשר למפתחים לגשת ל-ETH מגושר
12 בנובמבר 2024
Civic מציגה את Civic Auth, ומציעה שער לניהול זהויות מקיף
דיווח חדשות טכנולוגיה
Civic מציגה את Civic Auth, ומציעה שער לניהול זהויות מקיף
12 בנובמבר 2024
Linea לתגמל משתתפי מסע פרסום Testnet Voyage עם LXP Airdrop
דיווח חדשות טכנולוגיה
Linea לתגמל משתתפי מסע פרסום Testnet Voyage עם LXP Airdrop
12 בנובמבר 2024
CRYPTOMERIA LABS PTE. בע"מ.