گزارش خبری پیشرفته
ژوئن 01، 2023

OpenAI: مدل‌سازی پاداش تحت نظارت فرآیند جدید، استدلال هوش مصنوعی را بهبود می‌بخشد

به طور خلاصه

OpenAIمدل‌سازی پاداش تحت نظارت فرآیند (PRM) با هدف ارزیابی مراحل میانی و استدلال مدل‌های هوش مصنوعی، منجر به بهبود عملکرد و معیارها می‌شود.

OpenAI بار دیگر توجه جامعه هوش مصنوعی را با کار پیشگامانه خود در مدل سازی پاداش تحت نظارت فرآیند به خود جلب کرده است.PRM ها). هدف این رویکرد نوآورانه ارزیابی مراحل میانی و استدلال مدل‌های هوش مصنوعی است که منجر به بهبود عملکرد و معیارها می‌شود.

OpenAI: مدل‌سازی پاداش تحت نظارت فرآیند جدید، استدلال هوش مصنوعی را بهبود می‌بخشد
اعتبار: Metaverse Post (mpost.io)
توصیه شده: ChatGPT می‌توان وال استریت را با آسان‌تر کردن معاملات تغییر داد

در تقویت سنتی یادگیری از بازخورد انسانی (RLHF، بازخورد مدل معمولاً بر اساس نتیجه کلی تولید شده توسط مدل ارائه می شود. با این حال، OpenAIتحقیق جدید ایده ارزیابی مراحل فردی و فرآیندهای استدلال انجام شده توسط مدل را بررسی می کند. با انجام این کار، آنها می توانند ارزیابی ها و بازخوردهای دقیق تری ارائه دهند.

برای مقابله با این مشکل، OpenAI مسائل ریاضی را انتخاب کرد که به چندین عمل نیاز داشت. یک جدا مدل برای ارزیابی موثر مراحل میانی آموزش دیده بود، و به عنوان یک منتقد برای شناسایی هرگونه قضاوت نادرست توسط مدل اولیه عمل می کند. این فرآیند نه تنها عملکرد کلی را افزایش می دهد، بلکه معیارهای مورد استفاده برای ارزیابی قابلیت های مدل را نیز بهبود می بخشد.

OpenAI با انتشار مجموعه داده‌ای که به‌طور دقیق متشکل از 800,000 قضاوت مشخص شده. هر قضاوت نشان دهنده یک مرحله جداگانه در حل مسائل ریاضی است و به صورت دستی ایجاد شده است. این سطح فداکاری و منابع را برجسته می کند OpenAI در توسعه مجموعه داده های با کیفیت بالا سرمایه گذاری می کند، سوالاتی در مورد حجم داده های جمع آوری شده برای سایر حوزه ها مانند برنامه نویسی یا سوالات باز مطرح می کند.

آموزش از GPT-4, OpenAIآخرین تکرار از GPT سری، در حال حاضر به خوبی در حال انجام است. در حالی که جزء RLHF در آزمایش‌های فعلی گنجانده نشده است، یک مدل زبان خالص استفاده می‌شود. به ویژه، OpenAI اشاره می کند که چندین نسخه وجود دارد GPT-4، حتی کوچکترین نسخه به منابع بسیار کمتری برای آموزش نیاز دارد - تقریباً 200 برابر کمتر.

مثال جالبی که توسط OpenAI نشان می دهد که چگونه مدل هر مرحله تصمیم گیری فردی را ارزیابی می کند. در اسکرین شات موجود در پست، خطاهای موجود در راه حل علامت گذاری می شوند و کمترین امتیاز صحت را با رنگ قرمز مشخص می کنند.
اعتبار: OpenAI

مثال جالبی که توسط OpenAI نحوه ارزیابی مدل را نشان می دهد هر مرحله تصمیم گیری فردی در اسکرین شات موجود در پست، خطاهای موجود در راه حل علامت گذاری می شوند و کمترین امتیاز صحت را با رنگ قرمز مشخص می کنند. این نمایش توانایی مدل در استدلال را برجسته می کند و بینش های ارزشمندی را در مورد فرآیند تصمیم گیری آن ارائه می دهد. OpenAI همچنین دستورالعمل‌هایی را برای نشانه‌گذاری‌ها ارائه کرده است، و فرصت‌هایی را برای جمع‌سپاری‌ها فراهم می‌کند تا بتوانند از کار خود کمک کنند و از آن بهره ببرند.

As OpenAI به پیش بردن مرزهای تحقیقات هوش مصنوعی ادامه می‌دهد، تمرکز آن‌ها بر استدلال مدل و مدل‌سازی پاداش تحت نظارت فرآیند، امکانات جدیدی را برای قابلیت‌های پیشرفته هوش مصنوعی به ارمغان می‌آورد. این پیشرفت اخیر تعهد آنها را به بهبود عملکرد مدل نشان می دهد و درهایی را به روی پیشرفت های بیشتر در این زمینه باز می کند.

درباره هوش مصنوعی بیشتر بخوانید:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

در میان نوسانات، اشتهای سازمانی به سمت ETF های بیت کوین رشد می کند

افشاگری از طریق پرونده های 13F نشان می دهد که سرمایه گذاران نهادی قابل توجهی در ETF های بیت کوین مشغول هستند و بر پذیرش فزاینده ...

بیشتر بدانید

روز صدور حکم فرا می رسد: با بررسی دادگاه ایالات متحده به درخواست وزارت دادگستری، سرنوشت CZ در تعادل است

چانگ پنگ ژائو امروز در دادگاهی در سیاتل آمریکا محکوم خواهد شد.

بیشتر بدانید
به انجمن فناوری نوآورانه ما بپیوندید
ادامه مطلب
ادامه مطلب
تغییر دونالد ترامپ به رمزارز: از مخالف به طرفدار و معنای آن برای بازار ارزهای دیجیتال ایالات متحده
کسب و کار بازارها داستان ها و نقدها پیشرفته
تغییر دونالد ترامپ به رمزارز: از مخالف به طرفدار و معنای آن برای بازار ارزهای دیجیتال ایالات متحده
ممکن است 10، 2024
Layer3 Token L3 را تابستان امسال راه اندازی می کند و 51٪ از کل عرضه را به انجمن اختصاص می دهد
بازارها گزارش خبری پیشرفته
Layer3 Token L3 را تابستان امسال راه اندازی می کند و 51٪ از کل عرضه را به انجمن اختصاص می دهد
ممکن است 10، 2024
آخرین هشدار ادوارد اسنودن به توسعه دهندگان بیت کوین: «حریم خصوصی را در اولویت پروتکل قرار دهید یا خطر از دست دادن آن را داشته باشید.
بازارها دوربین های مداربسته Wiki نرم افزار داستان ها و نقدها پیشرفته
آخرین هشدار ادوارد اسنودن به توسعه دهندگان بیت کوین: «حریم خصوصی را در اولویت پروتکل قرار دهید یا خطر از دست دادن آن را داشته باشید.
ممکن است 10، 2024
شبکه اتریوم لایه 2 مبتنی بر خوش بینی، شبکه اصلی خود را در 15 می راه اندازی می کند.
گزارش خبری پیشرفته
شبکه اتریوم لایه 2 مبتنی بر خوش بینی، شبکه اصلی خود را در 15 می راه اندازی می کند.
ممکن است 10، 2024
CRYPTOMERIA LABS PTE. محدود