OpenAI: מידול חדש של תגמול בפיקוח תהליכים משפר את נימוק הבינה המלאכותית
בקיצור
OpenAIמודל התגמול בפיקוח התהליך (PRM) של החברה נועד להעריך את שלבי הביניים וההיגיון של מודלים של AI, מה שמוביל לשיפור הביצועים והמדדים.
OpenAI שוב תפס את תשומת הלב של קהילת הבינה המלאכותית עם עבודתם פורצת הדרך במודלים של תגמול בפיקוח תהליכים (PRM). גישה חדשנית זו שואפת להעריך את שלבי הביניים וההיגיון של מודלים של AI, מה שמוביל לשיפור הביצועים והמדדים.
בחיזוק מסורתי למידה ממשוב אנושי (RLHF), משוב על המודל ניתן בדרך כלל על סמך התוצאה הכוללת שנוצרת על ידי המודל. למרות זאת, OpenAIהמחקר החדש של המחקר בוחן את הרעיון של הערכת השלבים ותהליכי החשיבה האישיים שבוצעו על ידי המודל. על ידי כך, הם יכולים לספק הערכות ומשוב דק יותר.
כדי להתמודד עם בעיה זו, OpenAI בעיות מתמטיות נבחרות שדרשו מספר פעולות. נפרד מודל הוכשר להעריך ביעילות את שלבי הביניים, ולפעול כמבקר כדי לזהות כל שיפוט שגוי שנעשה על ידי המודל העיקרי. תהליך זה לא רק משפר את הביצועים הכוללים אלא גם משפר את המדדים המשמשים להערכת יכולות המודל.
OpenAI עשתה צעדים משמעותיים בתחום זה, עם שחרורו של מערך נתונים שנערך בקפידה המורכב ממנו 800,000 פסקי דין מסומנים. כל פסק דין מייצג שלב נפרד בפתרון בעיות מתמטיות והוא נוצר באופן ידני. זה מדגיש את רמת המסירות והמשאבים OpenAI משקיעה בפיתוח מערכי נתונים באיכות גבוהה, מעלה שאלות לגבי נפח הנתונים שנאספים עבור תחומים אחרים כגון תכנות או שאלות פתוחות.
האימון של GPT-4, OpenAIהאיטרציה האחרונה של ה GPT סדרה, כבר בעיצומו. בעוד שרכיב RLHF אינו משולב בניסויים הנוכחיים, נעשה שימוש במודל שפה טהור. במיוחד, OpenAI מזכיר שישנן מספר גרסאות של GPT-4, כאשר אפילו הגרסה הקטנה ביותר דורשת פחות משאבים משמעותית לאימון - בערך פי 200 פחות.
דוגמה מסקרנת משותפת על ידי OpenAI מציג כיצד המודל מעריך כל שלב החלטה אינדיבידואלי. בצילום מסך שנכלל בפוסט, שגיאות בפתרון מסומנות ומקבלות את ציון הנכונות הנמוך ביותר, מסומנות באדום. הדגמה זו מדגישה את יכולתו של המודל לנמק ומספקת תובנות חשובות לגבי תהליך קבלת ההחלטות שלו. OpenAI סיפקה גם הוראות לסימון, ומציעה הזדמנויות למקורות המונים לתרום ולהפיק תועלת מעבודתם.
As OpenAI ממשיכים לדחוף את הגבולות של מחקר בינה מלאכותית, ההתמקדות שלהם בהנמקת מודלים ומידול תגמול בפיקוח תהליך מביאה אפשרויות חדשות ליכולות AI משופרות. פריצת הדרך האחרונה הזו מציגה את המחויבות שלהם לשיפור ביצועי הדגם ופותחת דלתות להתקדמות נוספת בתחום.
- לאחרונה, על פי הדיווחים אפל מגבילה את השימוש של העובדים ב ChatGPT וצ'אטבוטים אחרים המופעלים על ידי בינה מלאכותית בשל חששות פרטיות. הוול סטריט ג'ורנל דיווח כי עובדים מוגבלים גם משימוש בכלי ה-AI Copilot של GitHub, אשר מאפשר למשתמשים לכתוב קוד תוכנה באופן אוטומטי. ChatGPT הוא צ'אט בוט המופעל על ידי בינה מלאכותית שפותח על ידי OpenAI, שספגה ביקורת על הפרות פרטיות.
קרא עוד על AI:
כתב ויתור
בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.
על המחבר
דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.
מאמרים נוספיםדמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.