توسعه دهندگان از یک محصول جدید رونمایی کردند GPT-4-روش مبتنی بر خودارزیابی LLMها، دستیابی به توافق 80% با ارزیابی های انسانی
به طور خلاصه
روش ارزیابی LLM برای بهبود دقت و انصاف در ارزیابی مدل های زبانی تکامل یافته است.
نویسندگان از الف استفاده کردند GPT-4 رویکرد مقایسه، شامل دهها هزار پاسخ واقعی انسانی، برای جمعآوری دادهها و پرداختن به چالشهایی مانند سوگیری تخمین، ترجیح پرحرفی، سوگیری ابراز وجود و توانایی استدلال محدود.
در یک سری مقالات اخیر در مورد بحث ارزیابی LLMs، تاکید شد که مقیاس پذیری و مقرون به صرفه بودن منجر به اتخاذ الف GPT-4 رویکرد مقایسه این شامل استفاده از یک مدل برای ارزیابی پاسخ های مختلف به یک سوال، انتخاب بهترین پاسخ برای ایجاد یک سیستم رتبه بندی است. همانطور که قبلا ذکر شد، این روش محدودیت های قابل توجهی داشت. سازندگان از رتبه بندی LMSYS.orgکه از چند ماه پیش این رویکرد را معرفی کرد، اکنون تصمیم گرفته اند که روش جدید ارزیابی را جایگزین آن کنند.
این تیم در طول کار خود، دهها هزار پاسخ واقعی انسانی را با مقایسه اولویتها برای پاسخهای مختلف جمعآوری کردند. این مجموعه داده گسترده به آنها اجازه داد تا درک دقیق تری از مزایا و معایب مرتبط با هر پاسخ به دست آورند. روش ارزیابی جدید هنوز بر آن تکیه دارد GPT-4، از اتوماسیون و مقیاس پذیری استفاده می کند. با قیمتی مقرون به صرفه برای همه در دسترس است.
برای اطمینان از عدالت در فرآیند ارزیابی با استفاده از GPT-4، چالش های زیر مورد توجه قرار گرفت:
- سوگیری برآورد ناشی از ترجیح موقعیت.
- تمایل به پرحرفی، ترجیح دادن پاسخ های طولانی تر بدون در نظر گرفتن کیفیت آنها.
- سوگیری ابراز وجود، که در آن ترجیحات به سمت پاسخ های خود مدل یا مدل های آموزش دیده بر روی آنها.
- توانایی استدلال محدود هنگام ارزیابی سوالات ریاضی و منطقی.
شما می توانید تمام سوالات، تمام پاسخ های مدل و مقایسه های زوجی بین بیش از 20 مدل را در یک وب سایت اختصاصی مشاهده کنید (https://huggingface.co/spaces/lmsys/mt-bench). طبق معمول، بخشهای Reasoning و Coding شامل جذابترین مثالها هستند.
پس از اجرای راهحلهای مختلف برای کاهش این مشکلات، نویسندگان متوجه شدند که مدلهای زبان قدرتمند مانند آن هستند GPT-4 به خوبی با ترجیحات انسانی هماهنگ باشد و در ارزیابی ها به توافق بیش از 80 درصد دست یابد. این بدان معناست که ارزیابی مدل در 80 درصد موارد با رتبهبندیهای انسانی مطابقت دارد، سطحی از توافق که با دو ارزیاب انسانی متفاوت که روی یک کار کار میکنند قابل مقایسه است. OpenAI همچنین گزارش داده است که حتی نویسندگان یک مقاله که از نزدیک با هم همکاری می کنند، در 82 تا 86 درصد موارد موافق هستند.

توجه به این نکته حائز اهمیت است که اگرچه این یک "روش کامل" ارزیابی نیست، اما نشان دهنده پیشرفت قابل توجهی نسبت به روش های قبلی است. نویسندگان اکنون قصد دارند مجموعه داده خود را گسترش دهند تا به جای 1000 سؤال، 80 سؤال را شامل شود، و آنها فعالانه در حال کار بر روی اصلاح دستورات برای کاهش تعصبات هستند. GPT-4 برآوردها آنها دو ارزیابی عینی دیگر را در نظر می گیرند: یکی بر اساس رای دادن توسط افراد واقعی (معروف به "عرصه"، جایی که مدل ها در آن رقابت می کنند) با استفاده از نقاط Elo، و دیگری بر اساس پیش بینی های انجام شده توسط معیار MMLU.
افزایش مقایسه مدل با GPT-4
با ظهور اخیر مدل های زبانی مختلف مانند Vicuna، Koala و Dolly، تمرین مقایسه مدل ها با استفاده از GPT-4 محبوبیت پیدا کرده است. یک اعلان منحصر به فرد ارائه می شود که در آن دو پاسخ به یک سوال، یکی از مدل A و دیگری از مدل B، درج می شود. سپس از ارزیابان خواسته می شود که پاسخ ها را در مقیاسی از 1 تا 8 رتبه بندی کنند، که 1 نشان می دهد که مدل A به طور قابل توجهی بهتر است، 8 برای مدل B، و 4-5 نشان دهنده تساوی است. نمرات 2-3 و 6-7 نشان دهنده "مدل بهتر" است.
در مطالعه روشنگر توسط تیم HuggingFace انجام شد، آنها پاسخ های چهار مدل را برای 329 سوال مختلف ارزیابی کردند. از جمله یافته های جالب، این مطالعه موارد زیر را نشان داد:
- رتبه بندی چهار مدل بر اساس مقایسه های زوجی بین ارزیابی انسانی و GPT-4، اگرچه شکاف های رتبه بندی Elo متفاوتی مشاهده شد. این نشان میدهد که مدل میتواند بین پاسخهای خوب و بد تمایز قائل شود، اما با موارد مرزی که کمتر با ارزیابیهای انسانی همسو هستند مبارزه میکند.
- جالب توجه است که این مدل به پاسخهای مدلهای دیگر، بهویژه مدلهایی که در آن آموزش دیدهاند، رتبهبندی میکند GPT-4 پاسخ ها، بالاتر از پاسخ های واقعی انسان.
- همبستگی بالایی (0.96/XNUMXPearson=) بین GPT-4 امتیاز و تعداد نشانه های منحصر به فرد در پاسخ. این نشان می دهد که مدل کیفیت پاسخ را ارزیابی نمی کند و بر نیاز به تفسیر محتاطانه تأکید می کند.
این یافته ها بر اهمیت ارزیابی دقیق در هنگام استفاده تاکید می کند GPT-4 برای مقایسه مدل در حالی که این مدل میتواند تا حدی بین پاسخها تفاوت قائل شود، ارزیابیهای آن ممکن است همیشه با قضاوتهای انسان، بهویژه در سناریوهای ظریف، مطابقت نداشته باشد. بسیار مهم است که احتیاط کنید و هنگام تکیه بر عوامل اضافی را در نظر بگیرید GPT-4 امتیازات هدف پژوهشگران با اصلاح دستورات و ترکیب ارزیابیهای متنوع، افزایش قابلیت اطمینان و دقت GPT-4 تخمین می زند.
مقاله با حمایت از انجمن کانال تلگرام.
درباره هوش مصنوعی بیشتر بخوانید:
رفع مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشتر
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
