GPT-4 felülmúlja GPT-3.5 Mindent összevetve a különböző tanulmányi benchmarkokon
Röviden
A GPT-4 magasabb osztályzati küszöböt ért el, mint a GPT-3.5 különböző benchmarkokon.
Ez jelentős eredmény, mivel azt mutatja, hogy a gépek nem csak az emberhez hasonló intelligenciára képesek, hanem felülmúlhatnak minket, ami kérdéseket vet fel az AI jövőjével és a munkaerőpiacra gyakorolt lehetséges hatásaival kapcsolatban.
GPT-4 jelentősen felülmúlja a legmodernebb (SOTA) modelleket, beleértve azokat is, amelyek további képzési protokollokat vagy benchmark-specifikus tervezést használnak, valamint a meglévő nagy nyelvi modelleket.
A GPT-4 magasabb pontszámot ért el, mint a GPT-3.5 különböző benchmarkokon. Ez jelentős áttörés a gépek számára, mivel bizonyítja, hogy ma már nemcsak az eredetileg tervezett problémákat tudják megoldani, hanem jobban is, mint az egyetemisták.
Néhány dolgot figyelembe kell venni ennek az eredménynek a megtekintésekor. Először is a GPT-4 nem kapott speciális képzést ezekre a vizsgákra. A legfrissebb nyilvánosan elérhető tesztek felhasználásával (olimpiák és AP ingyenes válaszkérdések esetén) vagy a 2022–2023-as gyakorlati vizsgák megvásárlásával történt. Másodszor fontos megjegyezni, hogy a GPT-4Előfordulhat, hogy a teljesítménye nem feltétlenül tükrözi az emberi tesztet végzők képességeit, mivel más elvek és algoritmusok alapján működik.
Ez jelentős eredmény, mint ez azt mutatja hogy a gépek nemcsak emberszerű intelligenciára képesek, hanem felülmúlhatnak minket. Ez megnyitja az utat egy olyan jövő felé, ahol a gépek egyre összetettebb feladatokat látnak el, ami végső soron egy olyan jövő felé vezet, amelyben segítségünkre lehetnek a mindennapi életünkben.
GPT-4például sikeresen teljesít egy szimulált ügyvédi vizsgát úgy, hogy a vizsgázók legjobb 10%-ában szerepel; GPT-3.5 pontszáma az alsó 10%-ban volt. Ez a jelentős javulás a GPT-4A teljesítmény a nagyobb képzési adatoknak és a továbbfejlesztett architektúrának köszönhető. Várhatóan számos alkalmazási körrel fog rendelkezni különböző területeken, beleértve a természetes nyelvi feldolgozást és az automatizált írást.
A legkorszerűbb (SOTA) modellek többsége, beleértve azokat is, amelyek további képzési protokollokat vagy benchmark-specifikus tervezést használnak, valamint a meglévő nagy nyelvi modellek, jelentősen felülmúlják a GPT-4.
Belsőleg a fejlesztők használták GPT-4, amely jelentős hatással volt az olyan tevékenységekre, mint a programozás, az értékesítés, a támogatás és a tartalom moderálása. Az összehangolási módszerünk második szakasza most zajlik, mivel a fejlesztők arra használják, hogy segítsék az embereket a mesterséges intelligencia eredményeinek áttekintésében.
Az MMLU (Massive Multi-Task Language Understanding) adatkészlet nagyon széles témában tartalmaz kérdéseket a nyelvértésről különböző feladatokban (57 területre kiterjedően, beleértve a matematikát, biológiát, jogot, társadalom- és humán tudományokat stb.). A kérdésre négy lehetséges válasz adható, amelyek közül az egyik helyes. Vagyis a véletlenszerű találgatás 25%-os helyes válasz eredményét mutatja. Az alábbi képen talál példákat a kérdésekre és a nehézségeikre. Az átlagos személyjelölő (azaz nem tudós, nem professzor – egy hétköznapi ember, aki holdfényt jelöl) a kérdések 35%-ára válaszol helyesen; a szakértők azonban elérhetik a +/- 90%-os pontszámot.
Eredetileg a teljes adatkészlet angol nyelvű volt. De mi van akkor, ha a kérdéseket és válaszokat más nyelvekre is lefordítják, különösen a kevésbé gyakori nyelvekre? Vajon sikerül nekik valahogy a modell? Ebben a tesztben a Microsoft Azure Translate szolgáltatást használtuk a fordításhoz. A fordítások nem tökéletesek; bizonyos esetekben fontos információk vesznek el. Azonban még ebben az esetben is a GPT-4 más nyelveken is jól teljesít. Az MMLU lefordított verzióiban GPT-4 a 24 vizsgált nyelv közül 26-el felülmúlja más nagy modellek (beleértve a Googleét is) angol nyelvi szintjét.
Mi több, GPT-4 ritka nyelveken jobban teljesít, mint ChatGPT angolul csináltam (ChatGPT 70.1%-ot ért el, míg az új modell thai nyelven elért pontszáma 71.8% volt. Az angol nyelvű teszt pontszáma volt a legmagasabb, a GPT-4 10%-kal jobban teljesít, mint más modellek, köztük a Google legnagyobb PaLM-je. 86.4%-ot ért el, míg egy szakértői csoport 90%-ot.
- 2023 nyarára a mesterséges intelligencia új teljesítményszintet érhetett el, köszönhetően ChatGPT, egy chatbot, amely a GPT-4 algoritmus és felülmúlja GPT-3 570-szeres tényezővel. Számos elem járul hozzá ChatGPTa siker, beleértve a „emberszerűbb” tervezést, valamint a legmodernebb adatbányászat és természetes nyelvi feldolgozás alkalmazását a hatékonyság és a pontosság növelése érdekében.
- Microsoft és OpenAI januárban bejelentették együttműködésük megújítását, és azt tervezik, hogy a Bing Search átveszi az AI által továbbfejlesztett keresési képességeket. A nagyon kifinomult GPT3.5 modell csere, GPT4, most indult, és nagyban megnövelheti a Bing keresés képességét a természetes nyelvű lekérdezések megértésére és pontosabb eredmények elérésére. Célszerű egy jó biztonsági terv arra az esetre, ha valami rosszul sülne el.
Olvasson további kapcsolódó híreket:
A felelősség megtagadása
Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.
A szerzőről
Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.
További cikkekDamir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.