گزارش خبری SMW پیشرفته
ممکن است 30، 2023

GPT-4عملکرد او در آزمون وکالت ایالات متحده با ادعاهای آن تناقض دارد

به طور خلاصه

معاینه GPT-4عملکرد او در آزمون یکنواخت وکالت، اختلاف بین عملکرد برآورد شده و واقعی را آشکار کرد و بر اهمیت روش‌های ارزیابی شفاف و داده‌های قابل دسترس تأکید کرد.

OpenAI تشویق می شود تا به اختلافات رسیدگی کند و رویکردی فراگیرتر و قابل اعتمادتر برای ارزیابی مدل هوش مصنوعی برای جلب اعتماد و اطمینان از اعتبار ایجاد کند.

در بررسی اخیر از GPT-4عملکرد او در آزمون یکنواخت وکالت (EBU) تردیدهایی در مورد صحت و سقم آن بوجود آمده است OpenAIادعاهای 's در مورد میزان موفقیت مدل. برخلاف ادعای اولیه که GPT-4 از 90 درصد افراد بهتر عمل می کند، یافته ها نشان دهنده اختلاف قابل توجهی بین عملکرد تخمینی و واقعی مدل هوش مصنوعی است. این افشاگری بر اهمیت روش‌های ارزیابی شفاف و داده‌های قابل دسترس برای تأیید این ادعاها تأکید می‌کند.

GPT-4عملکرد 's در آزمون وکالت ایالات متحده با ادعاهای آن تناقض دارد
@Midjourney

این بررسی بر روی عوامل مختلفی برای تعیین توانایی های واقعی تمرکز داشت GPT-4. اولا، تحلیل امتحانات فوریه در ایلینوی نشان داد که GPT-4نمرات نزدیک به صدک 90. با این حال، مشاهده شد که این نمرات به‌شدت تحت‌تاثیر قبول‌کنندگانی قرار گرفت که قبلاً در آزمون ژوئیه مردود شده بودند و در نتیجه نمره‌های کمتر از میانگین کلی کسب کردند.

علاوه بر این، نتایج آزمون ژوئیه متناقض بود OpenAIاین ادعاها را آشکار می کند GPT-4 تنها می تواند شکست خورده است 68 درصد افراد و 48 درصد مقاله ها. GPT-4عملکرد او در برابر کسانی که بار اول می گیرند (به استثنای بازخوانی ها) در صدک 63 ارزیابی شد، زمانی که داده های رسمی از چندین آزمون در دوره های مختلف در نظر گرفته شد، و مقالات به طور قابل توجهی در صدک 41 امتیاز کمتری داشتند.

با بررسی عملکرد افرادی که در آزمون موفق شدند، از جمله افراد دارای مجوز و کسانی که در انتظار صدور مجوز بودند، دیدگاه دیگری به دست آمد. در این رابطه، GPT-4عملکرد کلی او در صدک 48 قرار گرفت و مقالات در صدک 15 بدتر بودند.

در حالی که این یافته‌ها نگران‌کننده هستند، در نظر گرفتن احتمال اشتباه انسانی در فرآیند بررسی بسیار مهم است. نویسنده مقاله بر اهمیت درک نمونه استفاده شده توسط محققان برای ارزیابی تاکید می کند GPT-4عملکرد فقدان داده های رسمی، به ویژه به صورت تجمیع، مقایسه و ارزیابی منصفانه صدک ها را دشوار می کند. ایجاد تکنیک های ارزیابی واضح و قابل دسترس که می تواند توسط همه ذینفعان ارزیابی شود بسیار مهم است.

در پاسخ به این نگرانی ها، OpenAI خواستار رسیدگی به اختلافات و بینش بیشتری ارائه دهد وارد فرآیند ارزیابی شود. شفافیت و باز بودن برای جلب اعتماد و اطمینان از اعتبار مدل‌های هوش مصنوعی در حوزه‌های پرمخاطره مانند قانون ضروری است.

لازم به ذکر است که این مقاله در مورد نمره خاص کسب شده توسط GPT-4که 298 گزارش شده است. ارزیابی اهمیت این نمره مستلزم درک زمینه ای از سیستم درجه بندی مورد استفاده است. همانطور که کودکی که با علامت B از مدرسه به خانه می آید می تواند باعث شادی یا ناامیدی شود، تفسیر GPT-4امتیاز به مقیاس استفاده شده بستگی دارد.

ارزیابی از GPT-4عملکرد او در آزمون وکالت نگرانی های جدی ایجاد می کند در مورد صحت OpenAIاظهارات اولیه شکاف بین عملکرد برآورد شده و واقعی بر اهمیت سیستم های ارزیابی واضح و داده های قابل دسترسی آسان تأکید دارد. OpenAI تشویق می شود تا به این چالش ها رسیدگی کند و یک طرح جامع تر ایجاد کند رویکرد قابل اعتماد به هوش مصنوعی ارزیابی مدل

درباره هوش مصنوعی بیشتر بخوانید:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

روز صدور حکم فرا می رسد: با بررسی دادگاه ایالات متحده به درخواست وزارت دادگستری، سرنوشت CZ در تعادل است

چانگ پنگ ژائو امروز در دادگاهی در سیاتل آمریکا محکوم خواهد شد.

بیشتر بدانید

بنیانگذاران کیف پول سامورایی متهم به تسهیل 2 میلیارد دلار در معاملات Darknet شدند

دلهره از بنیانگذاران کیف پول سامورای نشان دهنده یک شکست قابل توجه برای صنعت است که تاکیدی بر ادامه دار بودن ...

بیشتر بدانید
به انجمن فناوری نوآورانه ما بپیوندید
ادامه مطلب
ادامه مطلب
BOB شبکه بیت کوین L2 با لایه صفر برای کارکردهای پیشرفته ادغام می شود
کسب و کار گزارش خبری پیشرفته
BOB شبکه بیت کوین L2 با لایه صفر برای کارکردهای پیشرفته ادغام می شود
ممکن است 1، 2024
رنسانس هوش مصنوعی در توسعه بازی در سال 2024
AI Wiki متاوررس Wiki آموزش بازارها نرم افزار پیشرفته
رنسانس هوش مصنوعی در توسعه بازی در سال 2024
ممکن است 1، 2024
در آزمایشگاه نوآوری هوش مصنوعی جدید Estée Lauder: نگاهی دقیق تر به اینکه چگونه هوش مصنوعی مولد برندهای زیبایی را متحول می کند
شیوه زندگی نرم افزار داستان ها و نقدها پیشرفته
در آزمایشگاه نوآوری هوش مصنوعی جدید Estée Lauder: نگاهی دقیق تر به اینکه چگونه هوش مصنوعی مولد برندهای زیبایی را متحول می کند
ممکن است 1، 2024
همکاری Chainlink و Rapid Addition برای توسعه آداپتور بلاک چین مبتنی بر CCIP
کسب و کار گزارش خبری پیشرفته
همکاری Chainlink و Rapid Addition برای توسعه آداپتور بلاک چین مبتنی بر CCIP
ممکن است 1، 2024
CRYPTOMERIA LABS PTE. محدود