گزارش خبری تکنولوژی
ژوئیه 04، 2023

توسعه دهندگان از یک محصول جدید رونمایی کردند GPT-4-روش مبتنی بر خودارزیابی LLMها، دستیابی به توافق 80% با ارزیابی های انسانی

به طور خلاصه

روش ارزیابی LLM برای بهبود دقت و انصاف در ارزیابی مدل های زبانی تکامل یافته است.

نویسندگان از الف استفاده کردند GPT-4 رویکرد مقایسه، شامل ده‌ها هزار پاسخ واقعی انسانی، برای جمع‌آوری داده‌ها و پرداختن به چالش‌هایی مانند سوگیری تخمین، ترجیح پرحرفی، سوگیری ابراز وجود و توانایی استدلال محدود.

در یک سری مقالات اخیر در مورد بحث ارزیابی LLMs، تاکید شد که مقیاس پذیری و مقرون به صرفه بودن منجر به اتخاذ الف GPT-4 رویکرد مقایسه این شامل استفاده از یک مدل برای ارزیابی پاسخ های مختلف به یک سوال، انتخاب بهترین پاسخ برای ایجاد یک سیستم رتبه بندی است. همانطور که قبلا ذکر شد، این روش محدودیت های قابل توجهی داشت. سازندگان از رتبه بندی LMSYS.orgکه از چند ماه پیش این رویکرد را معرفی کرد، اکنون تصمیم گرفته اند که روش جدید ارزیابی را جایگزین آن کنند.

توسعه دهندگان از یک محصول جدید رونمایی کردند GPT-4-روش مبتنی بر خودارزیابی LLMها، دستیابی به توافق 80% با ارزیابی های انسانی
اعتبار: Metaverse Post (mpost.io)

این تیم در طول کار خود، ده‌ها هزار پاسخ واقعی انسانی را با مقایسه اولویت‌ها برای پاسخ‌های مختلف جمع‌آوری کردند. این مجموعه داده گسترده به آنها اجازه داد تا درک دقیق تری از مزایا و معایب مرتبط با هر پاسخ به دست آورند. روش ارزیابی جدید هنوز بر آن تکیه دارد GPT-4، از اتوماسیون و مقیاس پذیری استفاده می کند. با قیمتی مقرون به صرفه برای همه در دسترس است.

برای اطمینان از عدالت در فرآیند ارزیابی با استفاده از GPT-4، چالش های زیر مورد توجه قرار گرفت:

  1. سوگیری برآورد ناشی از ترجیح موقعیت.
  2. تمایل به پرحرفی، ترجیح دادن پاسخ های طولانی تر بدون در نظر گرفتن کیفیت آنها.
  3. سوگیری ابراز وجود، که در آن ترجیحات به سمت پاسخ های خود مدل یا مدل های آموزش دیده بر روی آنها.
  4. توانایی استدلال محدود هنگام ارزیابی سوالات ریاضی و منطقی.
توسعه دهندگان از یک محصول جدید رونمایی کردند GPT-4-روش مبتنی بر خودارزیابی LLMها، دستیابی به توافق 80% با ارزیابی های انسانی
در اینجا چند تصویر از 80 سوال ارزیابی شده آورده شده است. برای هر یک از سه گروه، دو بخش برای یک سوال وجود دارد.
شما می توانید تمام سوالات، تمام پاسخ های مدل و مقایسه های زوجی بین بیش از 20 مدل را در یک وب سایت اختصاصی مشاهده کنید (https://huggingface.co/spaces/lmsys/mt-bench). طبق معمول، بخش‌های Reasoning و Coding شامل جذاب‌ترین مثال‌ها هستند.

پس از اجرای راه‌حل‌های مختلف برای کاهش این مشکلات، نویسندگان متوجه شدند که مدل‌های زبان قدرتمند مانند آن هستند GPT-4 به خوبی با ترجیحات انسانی هماهنگ باشد و در ارزیابی ها به توافق بیش از 80 درصد دست یابد. این بدان معناست که ارزیابی مدل در 80 درصد موارد با رتبه‌بندی‌های انسانی مطابقت دارد، سطحی از توافق که با دو ارزیاب انسانی متفاوت که روی یک کار کار می‌کنند قابل مقایسه است. OpenAI همچنین گزارش داده است که حتی نویسندگان یک مقاله که از نزدیک با هم همکاری می کنند، در 82 تا 86 درصد موارد موافق هستند.

توسعه دهندگان از یک محصول جدید رونمایی کردند GPT-4-روش مبتنی بر خودارزیابی LLMها، دستیابی به توافق 80% با ارزیابی های انسانی
این معیار نشان می‌دهد که چقدر مدل‌ها در مجموعه‌های مختلف سؤالات متفاوت هستند. بزرگترین شکاف در استدلال و کدگذاری است، جایی که سطح مدل ها بسیار فراتر است GPT-4. با این حال، مدل ها را می توان هم در نقش آفرینی و هم در نوشتن متون معمولی استفاده کرد. نویسندگان مدل های جدید Vicuna v1.3 را با اندازه های مختلف از 7 تا 33 میلیارد پارامتر در اینجا منتشر کرده اند. https://github.com/lm-sys/FastChat/tree/main#vicuna-weights.

توجه به این نکته حائز اهمیت است که اگرچه این یک "روش کامل" ارزیابی نیست، اما نشان دهنده پیشرفت قابل توجهی نسبت به روش های قبلی است. نویسندگان اکنون قصد دارند مجموعه داده خود را گسترش دهند تا به جای 1000 سؤال، 80 سؤال را شامل شود، و آنها فعالانه در حال کار بر روی اصلاح دستورات برای کاهش تعصبات هستند. GPT-4 برآوردها آنها دو ارزیابی عینی دیگر را در نظر می گیرند: یکی بر اساس رای دادن توسط افراد واقعی (معروف به "عرصه"، جایی که مدل ها در آن رقابت می کنند) با استفاده از نقاط Elo، و دیگری بر اساس پیش بینی های انجام شده توسط معیار MMLU.

توسعه دهندگان از یک محصول جدید رونمایی کردند GPT-4-روش مبتنی بر خودارزیابی LLMها، دستیابی به توافق 80% با ارزیابی های انسانی
واقعیت جالب دیگر این است که GPT-4 مدل تنها مدلی است که در پاسخ به سوال دوم کیفیت را حفظ می کند. این به دو دلیل تا حدودی مورد بحث است: 1) مدل هنوز خودش را ارزیابی می کند 2) اگرچه تفاوت ناچیز است، اما نشان می دهد که مدل های دیگر چقدر در پیروی از دیالوگ ها و دستورالعمل های چند چرخشی ناکافی هستند.

افزایش مقایسه مدل با GPT-4

با ظهور اخیر مدل های زبانی مختلف مانند Vicuna، Koala و Dolly، تمرین مقایسه مدل ها با استفاده از GPT-4 محبوبیت پیدا کرده است. یک اعلان منحصر به فرد ارائه می شود که در آن دو پاسخ به یک سوال، یکی از مدل A و دیگری از مدل B، درج می شود. سپس از ارزیابان خواسته می شود که پاسخ ها را در مقیاسی از 1 تا 8 رتبه بندی کنند، که 1 نشان می دهد که مدل A به طور قابل توجهی بهتر است، 8 برای مدل B، و 4-5 نشان دهنده تساوی است. نمرات 2-3 و 6-7 نشان دهنده "مدل بهتر" است.

توسعه دهندگان از یک محصول جدید رونمایی کردند GPT-4-روش مبتنی بر خودارزیابی LLMها، دستیابی به توافق 80% با ارزیابی های انسانی
ممکن است منطقی به نظر برسد که مبادله مدل های A و B تأثیر قابل توجهی بر نمرات نداشته باشد (به عنوان مثال، 7 تبدیل به 2، 8 تبدیل به 1)، و برتری مداوم یک مدل منجر به پیروزی آن می شود. با این حال، پدیده "سوگیری موضعی" به وجود می آید، جایی که مدل تمایل دارد امتیازهای بالاتری را به مدل A (یک) اختصاص دهد. انتظار می رود که این سوگیری تقارن را در حوالی نقطه میانی 4-5 نشان دهد، زیرا الگوهای سریع به طور تصادفی به هم ریخته می شوند. ارزیابی انسانی این سوگیری را برای اطمینان از عدالت به حساب می آورد.

در مطالعه روشنگر توسط تیم HuggingFace انجام شد، آنها پاسخ های چهار مدل را برای 329 سوال مختلف ارزیابی کردند. از جمله یافته های جالب، این مطالعه موارد زیر را نشان داد:

  1. رتبه بندی چهار مدل بر اساس مقایسه های زوجی بین ارزیابی انسانی و GPT-4، اگرچه شکاف های رتبه بندی Elo متفاوتی مشاهده شد. این نشان می‌دهد که مدل می‌تواند بین پاسخ‌های خوب و بد تمایز قائل شود، اما با موارد مرزی که کمتر با ارزیابی‌های انسانی همسو هستند مبارزه می‌کند.
  2. جالب توجه است که این مدل به پاسخ‌های مدل‌های دیگر، به‌ویژه مدل‌هایی که در آن آموزش دیده‌اند، رتبه‌بندی می‌کند GPT-4 پاسخ ها، بالاتر از پاسخ های واقعی انسان.
  3. همبستگی بالایی (0.96/XNUMXPearson=) بین GPT-4 امتیاز و تعداد نشانه های منحصر به فرد در پاسخ. این نشان می دهد که مدل کیفیت پاسخ را ارزیابی نمی کند و بر نیاز به تفسیر محتاطانه تأکید می کند.

این یافته ها بر اهمیت ارزیابی دقیق در هنگام استفاده تاکید می کند GPT-4 برای مقایسه مدل در حالی که این مدل می‌تواند تا حدی بین پاسخ‌ها تفاوت قائل شود، ارزیابی‌های آن ممکن است همیشه با قضاوت‌های انسان، به‌ویژه در سناریوهای ظریف، مطابقت نداشته باشد. بسیار مهم است که احتیاط کنید و هنگام تکیه بر عوامل اضافی را در نظر بگیرید GPT-4 امتیازات هدف پژوهشگران با اصلاح دستورات و ترکیب ارزیابی‌های متنوع، افزایش قابلیت اطمینان و دقت GPT-4 تخمین می زند.

مقاله با حمایت از انجمن کانال تلگرام.

درباره هوش مصنوعی بیشتر بخوانید:

رفع مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

آرامش قبل از طوفان سولانا: نمودارها، نهنگ‌ها و سیگنال‌های درون زنجیره‌ای اکنون چه می‌گویند؟

سولانا عملکرد قوی‌ای را نشان داده است که ناشی از افزایش پذیرش، علاقه نهادی و مشارکت‌های کلیدی است، در حالی که با پتانسیل ... روبرو است.

بیشتر بدانید

کریپتو در آوریل ۲۰۲۵: روندهای کلیدی، تغییرات و آنچه در آینده رخ خواهد داد

در آوریل ۲۰۲۵، فضای کریپتو بر تقویت زیرساخت‌های اصلی متمرکز شد و اتریوم برای Pectra آماده می‌شد...

بیشتر بدانید
ادامه مطلب
ادامه مطلب
کرسر از قدرت اسپیس‌ایکس بهره می‌برد: گزینه خرید ۶۰ میلیارد دلاری و معامله ۱۰ میلیارد دلاری، رقابت محاسبات هوش مصنوعی را تقویت می‌کند
کسب و کار گزارش خبری تکنولوژی
کرسر از قدرت اسپیس‌ایکس بهره می‌برد: گزینه خرید ۶۰ میلیارد دلاری و معامله ۱۰ میلیارد دلاری، رقابت محاسبات هوش مصنوعی را تقویت می‌کند
آوریل 22، 2026
جنگ‌های جدید بازدهی: کدام پروتکل‌ها می‌خواهند درآمد کریپتو را افزایش دهند؟
لیست های برتر تکنولوژی
جنگ‌های جدید بازدهی: کدام پروتکل‌ها می‌خواهند درآمد کریپتو را افزایش دهند؟
آوریل 21، 2026
درون HSC Asset Management هنگ کنگ 2026: با غول‌های نهادی آشنا شویدdefiکریپتو، بازارهای سرمایه و توکنیزاسیون
فصل های هک شیوه زندگی گزارش خبری تکنولوژی
درون HSC Asset Management هنگ کنگ 2026: با غول‌های نهادی آشنا شویدdefiکریپتو، بازارهای سرمایه و توکنیزاسیون
آوریل 21، 2026
بخش تجربه مشتری ادوبی، هوش مصنوعی عامل‌گرا را به جلو می‌راند، چرا که تحلیلگران نوآوری را در مقابل خطرات مدیریتی می‌سنجند.
گزارش خبری تکنولوژی
بخش تجربه مشتری ادوبی، هوش مصنوعی عامل‌گرا را به جلو می‌راند، چرا که تحلیلگران نوآوری را در مقابل خطرات مدیریتی می‌سنجند.
آوریل 21، 2026
CRYPTOMERIA LABS PTE. محدود