חוקרים משוכפלים OpenAIהעבודה של המבוססת על אופטימיזציה של מדיניות פרוקסימלית (PPO) ב-RLHF
חיזוק למידה ממשוב אנושי (RLHF) הוא חלק בלתי נפרד ממערכות אימון כמו ChatGPT, והוא מסתמך על שיטות מיוחדות להשגת הצלחה. אחת מהשיטות הללו, אופטימיזציה של מדיניות פרוקסימלית (PPO), הייתה בתחילה יזום בין החומות של OpenAI בשנת 2017. במבט ראשון, PPO בלטה בהבטחה שלה לפשטות ביישום ומספר נמוך יחסית של היפרפרמטרים הנדרשים כדי לכוונן את המודל. עם זאת, כמו שאומרים, השטן נמצא בפרטים הקטנים.
לאחרונה, פוסט בבלוג שכותרתו "37 פרטי היישום של אופטימיזציה של מדיניות פרוקסימלית"שפוך אור על המורכבויות של PPO (הוכן לוועידת ICLR). השם לבדו מרמז על האתגרים העומדים בפני יישום השיטה הפשוטה כביכול. למרבה הפלא, לקח למחברים שלוש שנים לאסוף את כל המידע הדרוש ולשחזר את התוצאות.
הקוד ב- OpenAI המאגר עבר שינויים משמעותיים בין גרסאות, כמה היבטים נותרו בלתי מוסברים, ומוזרויות שהופיעו כבאגים הניבו איכשהו תוצאות. המורכבות של PPO מתבהרת כאשר אתה מתעמק בפרטים, ולמי שמעוניין בהבנה מעמיקה או בשיפור עצמי, קיים תקציר וידאו מומלץ ביותר.
אבל הסיפור לא נגמר שם. אותם מחברים החליטו לבקר מחדש את openai/lm-human-preferences repository משנת 2019, שמילאה תפקיד מכריע בכוונון עדין של מודלים של שפה המבוססים על העדפות אנושיות, באמצעות PPO. מאגר זה סימן את ההתפתחויות המוקדמות בנושא ChatGPT. הפוסט האחרון בבלוג, "פרטי היישום של RLHF עם PPO", משכפל מקרוב OpenAIזה עובד אבל משתמש ב- PyTorch ובספריות מודרניות במקום TensorFlow המיושן. המעבר הזה בא עם סט אתגרים משלו, כמו הבדלים ביישום ה-Adam Optimizer בין מסגרות, מה שהופך את זה לבלתי אפשרי לשכפל אימונים ללא התאמות.
אולי ההיבט המסקרן ביותר במסע הזה הוא החיפוש להפעיל ניסויים על הגדרות GPU ספציפיות כדי להשיג מדדים מקוריים ועקומות למידה. זהו מסע מלא באתגרים, החל ממגבלות זיכרון על סוגי GPU שונים ועד להגירה של OpenAI מערכי נתונים בין מתקני אחסון.
לסיכום, החקירה של אופטימיזציה של מדיניות פרוקסימלית (PPO) ב-Reforcement Learning from Human Feedback (RLHF) חושפת עולם מרתק של מורכבויות.
כתב ויתור
בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.
על המחבר
דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.
מאמרים נוספיםדמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.