מאי 15, 2023

תוכניות LLM: הדרך החדשה לכוונון עדין של מודלים עצביים במצבים מורכבים

by דמיר יללוב

פורסם: 15 במאי 2023 בשעה 3:42 בבוקר עודכן: 15 במאי 2023 בשעה 3:42 בבוקר

by קרולינה גאשץ'

נערך ונבדק עובדות: 15 במאי 2023 בשעה 3:42 בבוקר

בקיצור

המחברים מציעים מסלול חלופי הנקרא LLM Programs, אשר יכול להיחשב כפיתוח של למידה בתוך הקשר.

המפתח לפתרון בעיה באמצעות תוכנית LLM הוא היכולת לפרק את הפתרון לבעיה לרצף של שלבים פשוטים יותר.

ישנם שני תחומים עיקריים של התאמה אישית של LLM: כוונון עדין (או הכשרה נוספת) של מודל הבסיס שהוכשר מראש ולמידה בהקשר. כוונון עדין דורש משאבי מחשוב משמעותיים, איסוף נתונים ותשתית כדי לעשות זאת ולאחר מכן לארח מודלים מכוונים. בינתיים, למידה בהקשר כרוכה בהרכבת ההנחיה הנכונה עם דוגמאות לפתרון הבעיה, כגון שרשרת מחשבה (CoT). עם זאת, ישנם כמה קשיים, כמו הגודל המוגבל של הטקסט שניתן להגיש למודל והעובדה שבהנחיה מורכבת מרובת מעברים, השלבים עלולים להפריע זה לזה, ודעתו של המודל יכולה להיות מוסחת על ידי משהו שאסור להסיח את דעתו כרגע. המחברים מציעים דרך חלופית הנקראת תוכניות LLM, אשר יכול להיחשב כהתפתחות של למידה בתוך הקשר.

תוכניות LLM: הדרך החדשה לכוונון עדין של מודלים עצביים במצבים מורכבים

מומלץ: מדריך מהיר להנדסה אולטימטיבי 2023

LLM מובנה בתוכנית (בתוכנית קונבנציונלית שפת תכנות, למשל, בפייתון). קוד חיצוני זה אחראי על שמירת המצב ותחזוקת המודל צעד אחר צעד. יש לזה כמה יתרונות עיקריים: שפות תכנות מותאמות לכך, גודל ההקשר הזמין גדל והשלבים אינם מפריעים זה לזה. המפתח לפתרון בעיה באמצעות תוכנית LLM הוא היכולת לפרק את הפתרון לבעיה לרצף של שלבים פשוטים יותר. גישה זו שונה מעבודות קודמות, בהן המודל השתמש בכלים חיצוניים כגון מחשבונים או מתורגמני קוד לשמור על המדינה. גישה זו טובה מכיוון שניתן לתאר משימה מורכבת ומתפשטת בדרך זו, מה שמקל על בדיקה, ניפוי באגים והערכת איכות.

בנוסף, אין הפרעה בין השלבים, מה שמקל על העבודה עם LLM. גם מערכות שאלות-תשובות אינן חדשות; הם היו קיימים הרבה לפני לימודי תואר שני. כיצד נפתרת כעת משימת המענה לשאלות?

האתרים מתעדכנים לעתים קרובות, אז א דגם קפוא אינו אופציה; הוא יתיישן במהירות ולא יוכל לענות על שאלות לגבי מוצרים חדשים. הסבה מתמדת של הדגם עבור כל עדכון אינה אופציה ריאלית: זה יקר וגוזל זמן. במקום זאת, דפי אתר אינטרנט מסופקים בדרך כלל באינדקס, מוכנסים לסוג של מסד נתונים, ולעיתים קרובות מקוטרים. לבקשת המשתמש, מסמכים רלוונטיים נשלפים ונשלחים כהקשר ל-LLM.

בפרדיגמה כזו, הבעיה נפתרת באופן טבעי באמצעות תוכנית LLM. כבונוס, זה הופך לאפשרי ליישם לוגיקה מרובה מעברים מורכבת יותר שלא תתאים לחלוטין להקשר.

נבדק על מערך נתונים של StrategyQA המכילים בעיות סיווג בינארי, שפתרונן כרוך בהיגיון רב-כיווני. כמו "האם אור השמש חודר לתוך המקום העמוק ביותר של הים השחור?". כדי לענות, צריך למצוא את העומק המרבי (2 ק"מ) ואת עומק האור חודר למים (1 ק"מ), ואז להסיק מסקנה. בואו נסתכל על שאלה נוספת לדוגמה: "האם אריסטו השתמש במחשב נייד?" שאלה זו אינה פשוטה ואינה עוקבת אחר רצף שלבי ההיגיון במפורש כמו "האם אריסטו היה בחיים כשהמחשב הנייד הומצא?" עושה. מערך הנתונים מתמקד בשאלות שבהן רצף כזה הוא מרומז. יש רק 2,780 שאלות במערך הנתונים, מתוכן רק ל-918 יש פסקאות עם ראיות המחזקות את כל שלבי ההנמקה. בעבודה הנוכחית, זה מגביל לתת-קבוצה זו; אחרת, היינו צריכים להסתמך על LLM ללמוד כמה עובדות במהלך אימון מקדים.

ה-OPT-175B LLM, כברירת מחדל, אינו טוב במיוחד בביצוע ההוראות; זה לא היה צריך לכוונן הוראות או על נתוני שיחה. כדי לפתור את בעיית תשובות השאלות הנתמכות בראיות, מחולק לשלב סינון נתונים ושלב חיפוש עצים.

בשלב הסינון, לאחר שאלה, מפתחים עוברים על כל הפסקאות ובוחרים את הרלוונטיות ביותר. לדוגמה, עם הנחיה של מספר יריות, בקש מה- LLM לענות (כן/לא) האם פסקה נתונה רלוונטית לשאלה שנשאלה. נבדק על תת-קבוצה של 300 של StrategyQA, כאשר לכל שאלה הותאמה פסקה, רלוונטית או לא, 50/50. ל-OPT-175B ול-text-davinci-002 אין א איכות הרבה יותר גבוהה מאשר קו בסיס אקראי: עד 56%. המתקדמים יותר 11B Tk-Instruct הוא לא הרבה יותר טוב עם 61.6%.

בשל האיכות הירודה של גישה זו, הוקמה אלטרנטיבה ששוקלת את הסבירות הממוצעת שליליית (NLL) של השאלה בשילוב עם הפסקה הקודמת של הטקסט ולאחר מכן מדרגת את התוצאות. הוערך על מערך נתונים שבו לכל שאלה, היו 100 פסקאות, ורק אחת הייתה רלוונטית (לכן ניחוש אקראי נותן 1%). קיבלנו דיוק מוביל ב-1% והטופ-79 ב-5%. לצורך החישוב הזה, בדרך כלל צריך גישה למודל עצמו, מה שלא תמיד נעשה ב-API.

לאחר מכן מגיע שלב בניית שרשראות פלט. זה נעשה באמצעות חיפוש בעץ שבו השאלה היא השורש, ובכל רמה, ישנן פסקאות רבות עם ראיות אפשריות המשמשות כהקשר ליצירת השלב הבא. כל נתיב דרך העץ הוא שרשרת פלט פוטנציאלית. זה לא ריאלי להסיק מסקנה על כל הרשתות האפשריות, ולכן כל הרשתות הזמינות מדורגות, והרשת בעלת הדירוג הגבוה ביותר מורחבת. זוהי וריאציה כזו של חיפוש קרן. התהליך נעצר כאשר מתבצעת תגובה או שהמספר המרבי המותר של שלבים עבר.

הפרטים החשובים ביותר הם שתי אסטרטגיות הדירוג שנבדקו עבור שלב חיפוש העץ. האסטרטגיה הראשונה מבוססת על ה-NLL הממוצע של כל השרשרת, בעוד שהאסטרטגיה השנייה בוחנת את ההבדל הממוצע ב-NLL עם ובלי פסקה (P), עם ובלי שאלה (Q). על 918 השאלות הזמינות מ-StrategyQA, גישה זו משפרת באופן משמעותי את איכות התשובה ביחס לקו הבסיס עם CoT (60%); שתי אפשרויות החיפוש נותנות בסביבות 66% (האסטרטגיה עם דלתא מעט גבוהה יותר). אם מוגשות עובדות זהב, האיכות נעשית בסביבות 81%, שזה הגבול העליון ל-OPT. נראה ש-Darklang הולך לשם לאנשהו אבל בדרך קצת אחרת.

המאמר מבוסס על הטלגרם פוסט.

קרא עוד על AI:

תגיות:

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.

מאמרים נוספים

דמיר יללוב