דיווח חדשות טכנולוגיה
אוקטובר 27, 2023

חוקרים משוכפלים OpenAIהעבודה של המבוססת על אופטימיזציה של מדיניות פרוקסימלית (PPO) ב-RLHF

חיזוק למידה ממשוב אנושי (RLHF) הוא חלק בלתי נפרד ממערכות אימון כמו ChatGPT, והוא מסתמך על שיטות מיוחדות להשגת הצלחה. אחת מהשיטות הללו, אופטימיזציה של מדיניות פרוקסימלית (PPO), הייתה בתחילה יזום בין החומות של OpenAI בשנת 2017. במבט ראשון, PPO בלטה בהבטחה שלה לפשטות ביישום ומספר נמוך יחסית של היפרפרמטרים הנדרשים כדי לכוונן את המודל. עם זאת, כמו שאומרים, השטן נמצא בפרטים הקטנים.

חוקרים משוכפלים OpenAIהעבודה של המבוססת על אופטימיזציה של מדיניות פרוקסימלית (PPO) ב-RLHF

לאחרונה, פוסט בבלוג שכותרתו "37 פרטי היישום של אופטימיזציה של מדיניות פרוקסימלית"שפוך אור על המורכבויות של PPO (הוכן לוועידת ICLR). השם לבדו מרמז על האתגרים העומדים בפני יישום השיטה הפשוטה כביכול. למרבה הפלא, לקח למחברים שלוש שנים לאסוף את כל המידע הדרוש ולשחזר את התוצאות.

הקוד ב- OpenAI המאגר עבר שינויים משמעותיים בין גרסאות, כמה היבטים נותרו בלתי מוסברים, ומוזרויות שהופיעו כבאגים הניבו איכשהו תוצאות. המורכבות של PPO מתבהרת כאשר אתה מתעמק בפרטים, ולמי שמעוניין בהבנה מעמיקה או בשיפור עצמי, קיים תקציר וידאו מומלץ ביותר.

אבל הסיפור לא נגמר שם. אותם מחברים החליטו לבקר מחדש את openai/lm-human-preferences repository משנת 2019, שמילאה תפקיד מכריע בכוונון עדין של מודלים של שפה המבוססים על העדפות אנושיות, באמצעות PPO. מאגר זה סימן את ההתפתחויות המוקדמות בנושא ChatGPT. הפוסט האחרון בבלוג, "פרטי היישום של RLHF עם PPO", משכפל מקרוב OpenAIזה עובד אבל משתמש ב- PyTorch ובספריות מודרניות במקום TensorFlow המיושן. המעבר הזה בא עם סט אתגרים משלו, כמו הבדלים ביישום ה-Adam Optimizer בין מסגרות, מה שהופך את זה לבלתי אפשרי לשכפל אימונים ללא התאמות.

אולי ההיבט המסקרן ביותר במסע הזה הוא החיפוש להפעיל ניסויים על הגדרות GPU ספציפיות כדי להשיג מדדים מקוריים ועקומות למידה. זהו מסע מלא באתגרים, החל ממגבלות זיכרון על סוגי GPU שונים ועד להגירה של OpenAI מערכי נתונים בין מתקני אחסון.

לסיכום, החקירה של אופטימיזציה של מדיניות פרוקסימלית (PPO) ב-Reforcement Learning from Human Feedback (RLHF) חושפת עולם מרתק של מורכבויות.

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

מאמרים נוספים
דמיר יללוב
דמיר יללוב

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

Hot Stories
הצטרף לניוזלטר שלנו.
חדשות אחרונות

התיאבון המוסדי גדל לקראת תעודות סל של ביטקוין על רקע תנודתיות

גילויים באמצעות הגשת 13F חושפים משקיעים מוסדיים בולטים שמתעסקים בתעודות סל של ביטקוין, מה שמדגיש הסכמה גוברת של ...

יודע יותר

יום גזר הדין מגיע: גורלה של CZ באיזון כאשר בית המשפט האמריקני שוקל את הטענה של DOJ

צ'אנגפנג ג'או עומד היום בפני גזר דין בבית משפט אמריקאי בסיאטל.

יודע יותר
הצטרף לקהילת הטכנולוגיה החדשנית שלנו
למידע נוסף
קראו עוד
ניצול חדשנות בלוקצ'יין: גרמניה נוקטת צעד נועז לקראת שינוי שירותי בריאות וטיפול משופר בחולים
סגנון חיים שוקי תוכנה סיפורים וסקירות טכנולוגיה
ניצול חדשנות בלוקצ'יין: גרמניה נוקטת צעד נועז לקראת שינוי שירותי בריאות וטיפול משופר בחולים
מאי 13, 2024
פלטפורמת חידוש הביטקוין BounceBit משיקה את Mainnet ומודיעה על הקצאת אסימון BB
דיווח חדשות טכנולוגיה
פלטפורמת חידוש הביטקוין BounceBit משיקה את Mainnet ומודיעה על הקצאת אסימון BB
מאי 13, 2024
L3 Blockchain Degen Chain משתפת פעולה עם פלטפורמת תשתית כדי לטפל בבעיית ההשבתה שלה
דיווח חדשות טכנולוגיה
L3 Blockchain Degen Chain משתפת פעולה עם פלטפורמת תשתית כדי לטפל בבעיית ההשבתה שלה
מאי 13, 2024
3,050 ETH נכבסו היום מארנק ריבוי חתימות זוגיות עם 83,017 ETH נותרו תחת שליטת האקרים, מזהה התראות Cyvers
שוקי דיווח חדשות טכנולוגיה
3,050 ETH נכבסו היום מארנק ריבוי חתימות זוגיות עם 83,017 ETH נותרו תחת שליטת האקרים, מזהה התראות Cyvers
מאי 13, 2024
CRYPTOMERIA LABS PTE. בע"מ.