گزارش خبری پیشرفته
مارس 15، 2023

GPT-4 عملکرد بهتر GPT-3.5 در سراسر هیئت در مورد انواع معیارهای مطالعه

به طور خلاصه

La GPT-4 به آستانه درجه بالاتری نسبت به GPT-3.5 در انواع معیارها.

این یک دستاورد بزرگ است زیرا نشان می‌دهد که ماشین‌ها نه تنها قادر به هوش انسان‌مانند هستند، بلکه می‌توانند از ما نیز بهتر عمل کنند، که سؤالاتی را در مورد آینده هوش مصنوعی و تأثیر بالقوه آن بر بازار کار ایجاد می‌کند.

GPT-4 به طور قابل توجهی نسبت به مدل‌های پیشرفته (SOTA)، از جمله مدل‌هایی که از پروتکل‌های آموزشی اضافی یا طراحی خاص معیار استفاده می‌کنند، و همچنین مدل‌های زبان بزرگ موجود، بهتر عمل می‌کند.

La GPT-4 نمرات بالاتری نسبت به GPT-3.5 در انواع معیارها. این یک پیشرفت بزرگ برای ماشین‌ها است زیرا ثابت می‌کند که آنها اکنون نه تنها می‌توانند مشکلاتی را که در ابتدا برای آن طراحی شده‌اند حل کنند، بلکه می‌توانند بهتر از دانشجویان دانشگاه نیز این کار را انجام دهند.

GPT-4 بهتر از GPT-3.5 در سراسر هیئت مدیره در انواع معیارهای مطالعه

هنگام بررسی این نتیجه باید چند نکته را در نظر گرفت. اولا، GPT-4 هیچ آموزش خاصی برای این امتحانات داده نشده است. با استفاده از جدیدترین آزمون‌های در دسترس عموم (در مورد المپیادها و سؤالات پاسخ رایگان AP) یا با خرید نسخه‌های 2022-2023 آزمون‌های عملی پیش رفت. در مرحله دوم، توجه به این نکته ضروری است که GPT-4عملکرد 's ممکن است لزوماً منعکس کننده توانایی های آزمایش کنندگان انسانی نباشد، زیرا بر اساس مجموعه ای متفاوت از اصول و الگوریتم ها عمل می کند.

این یک دستاورد بزرگ است این امر نشان می دهد ماشین‌ها نه تنها قادر به هوشی شبیه انسان هستند، بلکه می‌توانند از ما نیز بهتر عمل کنند. این راه را برای آینده ای هموار می کند که در آن ماشین ها می توانند وظایف پیچیده تر و بیشتری را انجام دهند و در نهایت منجر به آینده ای می شود که در آن می توانند به ما در زندگی روزمره کمک کنند.

La GPT-4توانایی او برای پیشی گرفتن از انسان در وظایف خاص، سؤالاتی را در مورد آینده ایجاد می کند هوش مصنوعی و تاثیر بالقوه آن بر بازار کار. همچنین بر نیاز به تحقیق و توسعه مداوم در این زمینه برای اطمینان از استفاده اخلاقی و مسئولانه از هوش مصنوعی تاکید می کند.
ادامه مطلب: 5+ پیش‌بینی‌شده‌ترین مدل هوش مصنوعی متن به تصویر در سال 2023

GPT-4به عنوان مثال، یک آزمون وکالت شبیه سازی شده را با نمره ای در 10 درصد از شرکت کنندگان در آزمون قبول می کند. GPT-3امتیاز .5 در پایین ترین 10 درصد بود. این پیشرفت قابل توجه در GPT-4عملکرد 's به دلیل داده های آموزشی بزرگتر و معماری بهبود یافته آن است. انتظار می‌رود که در زمینه‌های مختلف، از جمله پردازش زبان طبیعی و نوشتن خودکار، کاربردهای گسترده‌ای داشته باشد.

 
GPT-4 در اکثر این امتحانات حرفه ای و آکادمیک عملکردی در سطح انسانی نشان می دهد. قابل ذکر است که نسخه شبیه سازی شده آزمون وکالت یکنواخت را با کسب امتیاز در 10 درصد برتر آزمون دهندگان گذراند. به نظر می‌رسد توانایی‌های این مدل در امتحانات عمدتاً از فرآیند پیش‌آموزشی ناشی می‌شود و به طور قابل‌توجهی تحت تأثیر RLHF قرار نمی‌گیرد. در سوالات چند گزینه ای، هر دو پایه GPT-4 مدل و مدل RLHF به طور متوسط ​​در بین توسعه دهندگان آزمون آزمایش شده به همان اندازه خوب عمل کردند.

اکثر مدل‌های پیشرفته (SOTA)، از جمله مدل‌هایی که ممکن است از پروتکل‌های آموزشی اضافی یا طراحی خاص معیار استفاده کنند، و همچنین مدل‌های بزرگ موجود مدل های زبان، به طور قابل توجهی بهتر از GPT-4.

GPT-4عملکرد از نظر استانداردهای تحصیلی. تضاد توسعه دهندگان GPT-4 با بهترین SOTA برای چند شات ارزیابی شده توسط LM و همچنین بهترین SOTA با آموزش خاص معیار. به استثنای DROP، GPT-4 عملکرد بهتری از LM های فعلی در همه معیارها و SOTA با آموزش های خاص معیار دارد.

در داخل، توسعه دهندگان از آن استفاده کرده اند GPT-4، که تأثیر قابل توجهی بر فعالیت هایی مانند برنامه نویسی، فروش، پشتیبانی و تعدیل محتوا داشته است. مرحله دوم روش هم ترازی ما اکنون در حال انجام است زیرا توسعه دهندگان از آن برای کمک به انسان در بررسی نتایج هوش مصنوعی استفاده می کنند.

مجموعه داده MMLU (Massive Multi-Task Language Understanding) شامل سوالاتی از طیف بسیار گسترده ای از موضوعات در مورد درک زبان در وظایف مختلف (شامل 57 حوزه از جمله ریاضیات، زیست شناسی، حقوق، علوم اجتماعی و انسانی و غیره) است. چهار پاسخ ممکن برای این سوال وجود دارد که یکی از آنها صحیح است. یعنی حدس تصادفی نتیجه 25 درصد پاسخ های صحیح را نشان می دهد. برای نمونه سوالات و مشکلات آنها به تصویر زیر مراجعه کنید. یک فرد معمولی نشانگر (یعنی این یک دانشمند نیست، یک پروفسور نیست - یک فرد معمولی که به عنوان نشانه گذاری مهتابی می زند) به 35 درصد سؤالات پاسخ صحیح می دهد. با این حال، کارشناسان می توانند به نمره +/- 90٪ برسند.

کارایی GPT-4 در طیف وسیعی از زبان ها در مقایسه با مدل های قبلی در انگلیسی در MMLU. GPT-4 از عملکرد زبان انگلیسی مدل‌های زبان موجود برای اکثریت بزرگ زبان‌های مورد بررسی، از جمله زبان‌های کم منبع مانند لتونی، ولزی، و سواحیلی فراتر می‌رود.
ادامه مطلب: 5 دلیل برای استفاده از بینگ مبتنی بر هوش مصنوعی بر روی گوگل

در اصل، کل مجموعه داده به زبان انگلیسی بود. اما اگر پرسش و پاسخ‌ها به زبان‌های دیگر، به ویژه زبان‌های کمتر رایج ترجمه شوند، چه؟ آیا این مدل به نحوی برای آنها کار خواهد کرد؟ در این تست از سرویس Microsoft Azure Translate برای ترجمه استفاده شد. ترجمه ها کامل نیستند. در برخی موارد، اطلاعات مهم از بین می رود. با این حال، حتی در این مورد، GPT-4 در زبان های دیگر به خوبی عمل می کند. در نسخه های ترجمه شده MMLU، GPT-4 از 24 زبان از 26 زبان مورد بررسی، از سطح انگلیسی سایر مدل های بزرگ (از جمله گوگل) بهتر عمل می کند.

دیگه چی، GPT-4 در زبان های کمیاب بهتر از ChatGPT به انگلیسی انجام داد (ChatGPT امتیاز 70.1٪ را به دست آورد، در حالی که امتیاز مدل جدید برای تایلندی 71.8٪ بود. امتیاز آزمون به زبان انگلیسی بالاترین امتیاز بود، با GPT-4 عملکرد 10٪ بهتر از سایر مدل ها، از جمله بزرگترین PalM از Google. امتیاز 86.4 درصد را به دست آورد، در حالی که گروهی از متخصصان 90 درصد بودند.

  • تا تابستان 2023، هوش مصنوعی ممکن است به لطف آن به سطح جدیدی از قدرت رسیده باشد ChatGPT، یک ربات چت که از GPT-4 الگوریتم و بهتر از GPT-3 با ضریب 570. عناصر مختلف به ChatGPTموفقیت، از جمله طراحی آن برای «شبیه‌تر انسان» و استفاده از داده‌کاوی پیشرفته و پردازش زبان طبیعی برای افزایش اثربخشی و دقت آن.
  • مایکروسافت و OpenAI از تمدید همکاری خود و برنامه‌های جستجوی Bing برای استفاده از قابلیت‌های جستجوی تقویت‌شده با هوش مصنوعی در ژانویه خبر دادند. بسیار پیچیده GPTجایگزینی مدل 3.5، GPT4, به تازگی راه اندازی شده استو این پتانسیل را دارد که ظرفیت جستجوی Bing را برای درک پرسش‌های زبان طبیعی و ارائه نتایج دقیق‌تر به میزان زیادی افزایش دهد. ایده خوبی است که در صورت بروز مشکل، یک برنامه پشتیبان خوب داشته باشید.

ادامه خبر مرتبط را بخوانید:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

در میان نوسانات، اشتهای سازمانی به سمت ETF های بیت کوین رشد می کند

افشاگری از طریق پرونده های 13F نشان می دهد که سرمایه گذاران نهادی قابل توجهی در ETF های بیت کوین مشغول هستند و بر پذیرش فزاینده ...

بیشتر بدانید

روز صدور حکم فرا می رسد: با بررسی دادگاه ایالات متحده به درخواست وزارت دادگستری، سرنوشت CZ در تعادل است

چانگ پنگ ژائو امروز در دادگاهی در سیاتل آمریکا محکوم خواهد شد.

بیشتر بدانید
به انجمن فناوری نوآورانه ما بپیوندید
ادامه مطلب
ادامه مطلب
Injective با AltLayer نیروها را به هم می پیوندد تا امنیت مجدد را به inEVM بیاورد
کسب و کار گزارش خبری پیشرفته
Injective با AltLayer نیروها را به هم می پیوندد تا امنیت مجدد را به inEVM بیاورد
ممکن است 3، 2024
Masa با Teller همکاری می کند تا استخر وام MASA را معرفی کند، وام USDC را بر اساس امکان پذیر می کند
بازارها گزارش خبری پیشرفته
Masa با Teller همکاری می کند تا استخر وام MASA را معرفی کند، وام USDC را بر اساس امکان پذیر می کند
ممکن است 3، 2024
Velodrome نسخه بتا سوپرچین را در هفته‌های آینده عرضه می‌کند و در سراسر بلاک‌چین‌های OP Stack Layer 2 گسترش می‌یابد
بازارها گزارش خبری پیشرفته
Velodrome نسخه بتا سوپرچین را در هفته‌های آینده عرضه می‌کند و در سراسر بلاک‌چین‌های OP Stack Layer 2 گسترش می‌یابد
ممکن است 3، 2024
CARV شراکت با Aethir را برای تمرکززدایی لایه داده خود و توزیع جوایز اعلام می کند.
کسب و کار گزارش خبری پیشرفته
CARV شراکت با Aethir را برای تمرکززدایی لایه داده خود و توزیع جوایز اعلام می کند.
ممکن است 3، 2024
CRYPTOMERIA LABS PTE. محدود