GPT-4عملکرد او در آزمون وکالت ایالات متحده با ادعاهای آن تناقض دارد
به طور خلاصه
معاینه GPT-4عملکرد او در آزمون یکنواخت وکالت، اختلاف بین عملکرد برآورد شده و واقعی را آشکار کرد و بر اهمیت روشهای ارزیابی شفاف و دادههای قابل دسترس تأکید کرد.
OpenAI تشویق می شود تا به اختلافات رسیدگی کند و رویکردی فراگیرتر و قابل اعتمادتر برای ارزیابی مدل هوش مصنوعی برای جلب اعتماد و اطمینان از اعتبار ایجاد کند.
در بررسی اخیر از GPT-4عملکرد او در آزمون یکنواخت وکالت (EBU) تردیدهایی در مورد صحت و سقم آن بوجود آمده است OpenAIادعاهای 's در مورد میزان موفقیت مدل. برخلاف ادعای اولیه که GPT-4 از 90 درصد افراد بهتر عمل می کند، یافته ها نشان دهنده اختلاف قابل توجهی بین عملکرد تخمینی و واقعی مدل هوش مصنوعی است. این افشاگری بر اهمیت روشهای ارزیابی شفاف و دادههای قابل دسترس برای تأیید این ادعاها تأکید میکند.
این بررسی بر روی عوامل مختلفی برای تعیین توانایی های واقعی تمرکز داشت GPT-4. اولا، تحلیل امتحانات فوریه در ایلینوی نشان داد که GPT-4نمرات نزدیک به صدک 90. با این حال، مشاهده شد که این نمرات بهشدت تحتتاثیر قبولکنندگانی قرار گرفت که قبلاً در آزمون ژوئیه مردود شده بودند و در نتیجه نمرههای کمتر از میانگین کلی کسب کردند.
علاوه بر این، نتایج آزمون ژوئیه متناقض بود OpenAIاین ادعاها را آشکار می کند GPT-4 تنها می تواند شکست خورده است 68 درصد افراد و 48 درصد مقاله ها. GPT-4عملکرد او در برابر کسانی که بار اول می گیرند (به استثنای بازخوانی ها) در صدک 63 ارزیابی شد، زمانی که داده های رسمی از چندین آزمون در دوره های مختلف در نظر گرفته شد، و مقالات به طور قابل توجهی در صدک 41 امتیاز کمتری داشتند.
با بررسی عملکرد افرادی که در آزمون موفق شدند، از جمله افراد دارای مجوز و کسانی که در انتظار صدور مجوز بودند، دیدگاه دیگری به دست آمد. در این رابطه، GPT-4عملکرد کلی او در صدک 48 قرار گرفت و مقالات در صدک 15 بدتر بودند.
در حالی که این یافتهها نگرانکننده هستند، در نظر گرفتن احتمال اشتباه انسانی در فرآیند بررسی بسیار مهم است. نویسنده مقاله بر اهمیت درک نمونه استفاده شده توسط محققان برای ارزیابی تاکید می کند GPT-4عملکرد فقدان داده های رسمی، به ویژه به صورت تجمیع، مقایسه و ارزیابی منصفانه صدک ها را دشوار می کند. ایجاد تکنیک های ارزیابی واضح و قابل دسترس که می تواند توسط همه ذینفعان ارزیابی شود بسیار مهم است.
در پاسخ به این نگرانی ها، OpenAI خواستار رسیدگی به اختلافات و بینش بیشتری ارائه دهد وارد فرآیند ارزیابی شود. شفافیت و باز بودن برای جلب اعتماد و اطمینان از اعتبار مدلهای هوش مصنوعی در حوزههای پرمخاطره مانند قانون ضروری است.
لازم به ذکر است که این مقاله در مورد نمره خاص کسب شده توسط GPT-4که 298 گزارش شده است. ارزیابی اهمیت این نمره مستلزم درک زمینه ای از سیستم درجه بندی مورد استفاده است. همانطور که کودکی که با علامت B از مدرسه به خانه می آید می تواند باعث شادی یا ناامیدی شود، تفسیر GPT-4امتیاز به مقیاس استفاده شده بستگی دارد.
ارزیابی از GPT-4عملکرد او در آزمون وکالت نگرانی های جدی ایجاد می کند در مورد صحت OpenAIاظهارات اولیه شکاف بین عملکرد برآورد شده و واقعی بر اهمیت سیستم های ارزیابی واضح و داده های قابل دسترسی آسان تأکید دارد. OpenAI تشویق می شود تا به این چالش ها رسیدگی کند و یک طرح جامع تر ایجاد کند رویکرد قابل اعتماد به هوش مصنوعی ارزیابی مدل
درباره هوش مصنوعی بیشتر بخوانید:
سلب مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشترDamir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.