مطالعه استنفورد تایید می کند GPT-4 احمق تر شدن
به طور خلاصه
مطالعه ای که توسط متی زهاریا و تیمش از استنفورد و دانشگاه برکلی انجام شد، عملکرد آن را مقایسه کردند GPT-4 و ChatGPT برای رفع نگرانی های کاربران در مورد اثربخشی مدل.
این مطالعه مدل ها را در چهار وظیفه خاص ارزیابی کرد: ریاضیات، کدگذاری، حساسیت و استدلال بصری.
متی زهاریا و تیمش از استنفورد و یو سی برکلی یک مطالعه انجام داد که عملکرد را مقایسه کرد GPT-4 به ChatGPT. این تحقیق به دنبال رسیدگی به نگرانی های کاربران در مورد کاهش اثربخشی مدل بود.
محققان این مطالعه را برای ارزیابی مدل ها در چهار وظیفه خاص طراحی کردند. این وظایف عبارت بودند از:
- ریاضیات: توانایی مدل برای تعیین اول یا مرکب بودن یک عدد معین.
- کدگذاری: ارزیابی توانایی مدل برای تولید کد معنادار و کاربردی.
- حساسیت: تجزیه و تحلیل پاسخ های مدل به سوالات با محتوای بالقوه "سمی".
- استدلال بصری: آزمایش استعداد مدل برای حل مسائلی که شامل الگوهای بصری است، با استفاده از معیار ARC. شرکتکنندگان باید الگوها را در مجموعهای از تصاویر شناسایی میکردند و از آنها برای حل یک مثال جدید استفاده میکردند.
در رشته ریاضی هر دو GPT-4 نسخههای منتشر شده در ماه مارس و ژوئن، دقت ثابتی را در تعیین اعداد اول و ترکیبی به نمایش گذاشتند. مدل ها در انجام این محاسبات مهارت نشان دادند و نتایج قابل اعتمادی ارائه کردند.
حرکت به سمت کدنویسی، GPT-4 توانایی بهبود یافته ای را برای تولید کد معنی دار و کاربردی در مقایسه با نسخه های قبلی خود نشان داد. قابلیتهای تولید کد مدل امیدوارکننده بود و مزایای بالقوهای را برای توسعهدهندگان و برنامهنویسان به همراه داشت.
با توجه به حساسیت، این مطالعه پاسخهای مدلها را به سؤالات حاوی محتوای بالقوه مضر یا توهینآمیز ارزیابی کرد. GPT-4 تجزیه و تحلیل حساسیت افزایش یافته را نشان داد و توانایی بهبود یافته ای را برای ارائه پاسخ های مناسب در چنین زمینه هایی نشان داد. این نشان دهنده یک گام مثبت رو به جلو در رسیدگی به نگرانی های کاربران در مورد خروجی های بالقوه مشکل ساز است.
در نهایت، وظایف استدلال بصری بر اساس معیار ARC با موفقیت توسط هر دو تکمیل شد GPT-4 نسخه ها مدلها بهطور مؤثر الگوهای درون مجموعههای تصویر را شناسایی کردند و توانایی اعمال این الگوها را برای حل نمونههای جدید نشان دادند. این توانایی آنها را برای درک بصری و استدلال نشان می دهد.
ChatGPT رشد قابل توجهی در معیارهای عملکرد تا ژوئن نشان داد و بهبود قابل توجه بیش از ده برابر را نشان داد. در حالی که این مطالعه به عوامل خاصی که در این افزایش کمک میکنند نپرداخته است، آن را برجسته میکند ChatGPTپیشرفت در استدلال ریاضی و قابلیت های حل مسئله.
کیفیت GPT-4 و ChatGPT پس از تجزیه و تحلیل توانایی های برنامه نویسی آنها مورد سوال قرار گرفته است. با این حال، یک نگاه دقیق تر، برخی از تفاوت های ظریف جذاب را نشان می دهد که با برداشت های اولیه تناقض دارد.
نویسندگان کد را برای صحت اجرا یا تأیید نکردند. ارزیابی آنها صرفاً بر اساس اعتبار آن به عنوان کد پایتون بود. علاوه بر این، به نظر میرسید که مدلها با استفاده از یک دکوراتور، تکنیک قاببندی کد خاصی را یاد گرفتهاند، که بهطور ناخواسته مانع اجرای کد میشود.
در نتیجه، آشکار میشود که نه نتایج و نه خود آزمایش را نمیتوان بهعنوان شواهدی از تخریب مدل در نظر گرفت. در عوض، مدلها رویکرد متفاوتی را برای ایجاد پاسخها نشان میدهند که به طور بالقوه منعکسکننده تغییرات در آموزش آنها است.
وقتی نوبت به وظایف برنامه نویسی می رسد، هر دو مدل کاهش در پاسخگویی به درخواست های "اشتباه" را نشان دادند. GPT-4 کاهش بیش از چهار برابری در چنین مواردی را نشان می دهد. علاوه بر این، در کار استدلال بصری، کیفیت پاسخ ها برای هر دو مدل چند درصد بهبود یافت. این مشاهدات نشان دهنده پیشرفت به جای کاهش عملکرد است.
با این حال، ارزیابی مهارت های ریاضی یک عنصر جذاب را معرفی می کند. مدلها به طور مداوم اعداد اول را به عنوان پاسخ ارائه میکردند که نشاندهنده پاسخ «بله» ثابت است. با این حال، با معرفی اعداد ترکیبی به نمونه، آشکار شد که مدلها رفتار خود را تغییر دادند و شروع به ارائه پاسخهای «نه» کردند که نشاندهنده عدم قطعیت به جای کاهش کیفیت است. خود آزمون عجیب و یک طرفه استو نتایج آن را می توان به تغییر در رفتار مدل نسبت داد تا کاهش کیفیت.
توجه به این نکته مهم است که نسخه های API تست شده اند و نه نسخه های مبتنی بر مرورگر. در حالی که ممکن است مدلهای موجود در مرورگر برای بهینهسازی منابع تغییراتی داشته باشند، مطالعه پیوست اینطور نیست defiاین فرضیه را به خوبی اثبات کنید. تأثیر چنین تغییراتی میتواند با کاهشهای واقعی مدل قابل مقایسه باشد که منجر به چالشهای بالقوه برای کاربرانی میشود که به کار خاصی متکی هستند. پرسیدن و تجربه انباشته شده
در شرایطی که GPT-4 برنامه های کاربردی API، این انحرافات در رفتار می تواند پیامدهای ملموسی داشته باشد. کدی که بر اساس نیازها و وظایف یک کاربر خاص توسعه داده شده است، اگر مدل دستخوش تغییراتی در رفتار خود شود، ممکن است دیگر آنطور که در نظر گرفته شده عمل نکند.
توصیه می شود که کاربران روش های آزمایش مشابه را در جریان کاری خود بگنجانند. با ایجاد مجموعهای از اعلانها، متنهای همراه و نتایج مورد انتظار، کاربران میتوانند به طور منظم سازگاری بین انتظارات خود و پاسخهای مدل را بررسی کنند. به محض مشاهده هرگونه انحراف، می توان اقدامات مناسب را برای اصلاح وضعیت انجام داد.
درباره هوش مصنوعی بیشتر بخوانید:
سلب مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشترDamir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.