گزارش خبری پیشرفته
ژوئیه 20، 2023

مطالعه استنفورد تایید می کند GPT-4 احمق تر شدن

به طور خلاصه

مطالعه ای که توسط متی زهاریا و تیمش از استنفورد و دانشگاه برکلی انجام شد، عملکرد آن را مقایسه کردند GPT-4 و ChatGPT برای رفع نگرانی های کاربران در مورد اثربخشی مدل.

این مطالعه مدل ها را در چهار وظیفه خاص ارزیابی کرد: ریاضیات، کدگذاری، حساسیت و استدلال بصری.

متی زهاریا و تیمش از استنفورد و یو سی برکلی یک مطالعه انجام داد که عملکرد را مقایسه کرد GPT-4 به ChatGPT. این تحقیق به دنبال رسیدگی به نگرانی های کاربران در مورد کاهش اثربخشی مدل بود.

مطالعه استنفورد تایید می کند GPT-4 احمق تر شدن
اعتبار: Metaverse Post
مربوط: GPT-4 در مقابل GPT-3: مدل جدید چه چیزی برای ارائه دارد؟

محققان این مطالعه را برای ارزیابی مدل ها در چهار وظیفه خاص طراحی کردند. این وظایف عبارت بودند از:

  • ریاضیات: توانایی مدل برای تعیین اول یا مرکب بودن یک عدد معین.
  • کدگذاری: ارزیابی توانایی مدل برای تولید کد معنادار و کاربردی.
  • حساسیت: تجزیه و تحلیل پاسخ های مدل به سوالات با محتوای بالقوه "سمی".
  • استدلال بصری: آزمایش استعداد مدل برای حل مسائلی که شامل الگوهای بصری است، با استفاده از معیار ARC. شرکت‌کنندگان باید الگوها را در مجموعه‌ای از تصاویر شناسایی می‌کردند و از آن‌ها برای حل یک مثال جدید استفاده می‌کردند.

در رشته ریاضی هر دو GPT-4 نسخه‌های منتشر شده در ماه مارس و ژوئن، دقت ثابتی را در تعیین اعداد اول و ترکیبی به نمایش گذاشتند. مدل ها در انجام این محاسبات مهارت نشان دادند و نتایج قابل اعتمادی ارائه کردند.

حرکت به سمت کدنویسی، GPT-4 توانایی بهبود یافته ای را برای تولید کد معنی دار و کاربردی در مقایسه با نسخه های قبلی خود نشان داد. قابلیت‌های تولید کد مدل امیدوارکننده بود و مزایای بالقوه‌ای را برای توسعه‌دهندگان و برنامه‌نویسان به همراه داشت.

با توجه به حساسیت، این مطالعه پاسخ‌های مدل‌ها را به سؤالات حاوی محتوای بالقوه مضر یا توهین‌آمیز ارزیابی کرد. GPT-4 تجزیه و تحلیل حساسیت افزایش یافته را نشان داد و توانایی بهبود یافته ای را برای ارائه پاسخ های مناسب در چنین زمینه هایی نشان داد. این نشان دهنده یک گام مثبت رو به جلو در رسیدگی به نگرانی های کاربران در مورد خروجی های بالقوه مشکل ساز است.

در نهایت، وظایف استدلال بصری بر اساس معیار ARC با موفقیت توسط هر دو تکمیل شد GPT-4 نسخه ها مدل‌ها به‌طور مؤثر الگوهای درون مجموعه‌های تصویر را شناسایی کردند و توانایی اعمال این الگوها را برای حل نمونه‌های جدید نشان دادند. این توانایی آنها را برای درک بصری و استدلال نشان می دهد.

نتایج حاکی از آن است GPT-4 کاهش دقت را نشان داد، تنها با کمی بیش از 2٪ از پاسخ های صحیح. توجه به این نکته مهم است که این آزمون خاص در درجه اول ظرفیت مدل را برای یادآوری داده ها به جای نمایش توانایی های ریاضی ذاتی آن ارزیابی می کند. این کار حول محور یادآوری حافظه می چرخد، زیرا مدل فاقد قابلیت اعتبارسنجی و استنتاج محاسباتی است، به خصوص وقتی صحبت از اعداد اول می شود.

ChatGPT رشد قابل توجهی در معیارهای عملکرد تا ژوئن نشان داد و بهبود قابل توجه بیش از ده برابر را نشان داد. در حالی که این مطالعه به عوامل خاصی که در این افزایش کمک می‌کنند نپرداخته است، آن را برجسته می‌کند ChatGPTپیشرفت در استدلال ریاضی و قابلیت های حل مسئله.

این مطالعه کیفیت یا صحت کد تولید شده را ارزیابی نکرد. در عوض، به نظر می‌رسد که مدل‌ها رفتار «سفارشی» بیشتری از خود نشان می‌دهند و قطعه‌های کد را بدون اطمینان از دقت عملکردی خود ارائه می‌دهند.
مربوط: 10+ بهترین تقویت کننده عکس هوش مصنوعی در سال 2023

کیفیت GPT-4 و ChatGPT پس از تجزیه و تحلیل توانایی های برنامه نویسی آنها مورد سوال قرار گرفته است. با این حال، یک نگاه دقیق تر، برخی از تفاوت های ظریف جذاب را نشان می دهد که با برداشت های اولیه تناقض دارد.

نویسندگان کد را برای صحت اجرا یا تأیید نکردند. ارزیابی آنها صرفاً بر اساس اعتبار آن به عنوان کد پایتون بود. علاوه بر این، به نظر می‌رسید که مدل‌ها با استفاده از یک دکوراتور، تکنیک قاب‌بندی کد خاصی را یاد گرفته‌اند، که به‌طور ناخواسته مانع اجرای کد می‌شود.

در نتیجه، آشکار می‌شود که نه نتایج و نه خود آزمایش را نمی‌توان به‌عنوان شواهدی از تخریب مدل در نظر گرفت. در عوض، مدل‌ها رویکرد متفاوتی را برای ایجاد پاسخ‌ها نشان می‌دهند که به طور بالقوه منعکس‌کننده تغییرات در آموزش آن‌ها است.

بررسی توانایی های برنامه نویسی و ریاضی GPT-4 و ChatGPT یافته های جالبی را روشن کرده است. برخلاف مفروضات اولیه، مدل‌ها پیشرفت‌های قابل‌توجهی را در حوزه‌های خاص نشان دادند در حالی که تغییرات رفتاری را در برخی دیگر از خود نشان دادند.

وقتی نوبت به وظایف برنامه نویسی می رسد، هر دو مدل کاهش در پاسخگویی به درخواست های "اشتباه" را نشان دادند. GPT-4 کاهش بیش از چهار برابری در چنین مواردی را نشان می دهد. علاوه بر این، در کار استدلال بصری، کیفیت پاسخ ها برای هر دو مدل چند درصد بهبود یافت. این مشاهدات نشان دهنده پیشرفت به جای کاهش عملکرد است.

با این حال، ارزیابی مهارت های ریاضی یک عنصر جذاب را معرفی می کند. مدل‌ها به طور مداوم اعداد اول را به عنوان پاسخ ارائه می‌کردند که نشان‌دهنده پاسخ «بله» ثابت است. با این حال، با معرفی اعداد ترکیبی به نمونه، آشکار شد که مدل‌ها رفتار خود را تغییر دادند و شروع به ارائه پاسخ‌های «نه» کردند که نشان‌دهنده عدم قطعیت به جای کاهش کیفیت است. خود آزمون عجیب و یک طرفه استو نتایج آن را می توان به تغییر در رفتار مدل نسبت داد تا کاهش کیفیت.

توجه به این نکته مهم است که نسخه های API تست شده اند و نه نسخه های مبتنی بر مرورگر. در حالی که ممکن است مدل‌های موجود در مرورگر برای بهینه‌سازی منابع تغییراتی داشته باشند، مطالعه پیوست اینطور نیست defiاین فرضیه را به خوبی اثبات کنید. تأثیر چنین تغییراتی می‌تواند با کاهش‌های واقعی مدل قابل مقایسه باشد که منجر به چالش‌های بالقوه برای کاربرانی می‌شود که به کار خاصی متکی هستند. پرسیدن و تجربه انباشته شده

در شرایطی که GPT-4 برنامه های کاربردی API، این انحرافات در رفتار می تواند پیامدهای ملموسی داشته باشد. کدی که بر اساس نیازها و وظایف یک کاربر خاص توسعه داده شده است، اگر مدل دستخوش تغییراتی در رفتار خود شود، ممکن است دیگر آنطور که در نظر گرفته شده عمل نکند.

توصیه می شود که کاربران روش های آزمایش مشابه را در جریان کاری خود بگنجانند. با ایجاد مجموعه‌ای از اعلان‌ها، متن‌های همراه و نتایج مورد انتظار، کاربران می‌توانند به طور منظم سازگاری بین انتظارات خود و پاسخ‌های مدل را بررسی کنند. به محض مشاهده هرگونه انحراف، می توان اقدامات مناسب را برای اصلاح وضعیت انجام داد.

درباره هوش مصنوعی بیشتر بخوانید:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

در میان نوسانات، اشتهای سازمانی به سمت ETF های بیت کوین رشد می کند

افشاگری از طریق پرونده های 13F نشان می دهد که سرمایه گذاران نهادی قابل توجهی در ETF های بیت کوین مشغول هستند و بر پذیرش فزاینده ...

بیشتر بدانید

روز صدور حکم فرا می رسد: با بررسی دادگاه ایالات متحده به درخواست وزارت دادگستری، سرنوشت CZ در تعادل است

چانگ پنگ ژائو امروز در دادگاهی در سیاتل آمریکا محکوم خواهد شد.

بیشتر بدانید
به انجمن فناوری نوآورانه ما بپیوندید
ادامه مطلب
ادامه مطلب
Nexo "شکار" را آغاز می کند تا به کاربران با 12 میلیون دلار توکن NEXO برای تعامل با اکوسیستم خود پاداش دهد.
بازارها گزارش خبری پیشرفته
Nexo "شکار" را آغاز می کند تا به کاربران با 12 میلیون دلار توکن NEXO برای تعامل با اکوسیستم خود پاداش دهد.
ممکن است 8، 2024
صرافی Revolut X Revolut، معامله‌گران رمزارز را با هزینه‌های سازنده صفر و تجزیه‌وتحلیل پیشرفته وام می‌کند.
بازارها نرم افزار داستان ها و نقدها پیشرفته
صرافی Revolut X Revolut، معامله‌گران رمزارز را با هزینه‌های سازنده صفر و تجزیه‌وتحلیل پیشرفته وام می‌کند.
ممکن است 8، 2024
پلتفرم تجارت کریپتو BitMEX گزینه های معامله را با 0 کارمزد و مشوق های نقدی آغاز می کند
کسب و کار بازارها گزارش خبری
پلتفرم تجارت کریپتو BitMEX گزینه های معامله را با 0 کارمزد و مشوق های نقدی آغاز می کند
ممکن است 8، 2024
Lisk رسما به لایه 2 اتریوم منتقل می شود و Core نسخه 4.0.6 را معرفی می کند
گزارش خبری پیشرفته
Lisk رسما به لایه 2 اتریوم منتقل می شود و Core نسخه 4.0.6 را معرفی می کند
ممکن است 8، 2024
CRYPTOMERIA LABS PTE. محدود