Tudósítást Technológia
Március 15, 2023

GPT-4 felülmúlja GPT-3.5 Mindent összevetve a különböző tanulmányi benchmarkokon

Röviden

A GPT-4 magasabb osztályzati küszöböt ért el, mint a GPT-3.5 különböző benchmarkokon.

Ez jelentős eredmény, mivel azt mutatja, hogy a gépek nem csak az emberhez hasonló intelligenciára képesek, hanem felülmúlhatnak minket, ami kérdéseket vet fel az AI jövőjével és a munkaerőpiacra gyakorolt ​​lehetséges hatásaival kapcsolatban.

GPT-4 jelentősen felülmúlja a legmodernebb (SOTA) modelleket, beleértve azokat is, amelyek további képzési protokollokat vagy benchmark-specifikus tervezést használnak, valamint a meglévő nagy nyelvi modelleket.

A GPT-4 magasabb pontszámot ért el, mint a GPT-3.5 különböző benchmarkokon. Ez jelentős áttörés a gépek számára, mivel bizonyítja, hogy ma már nemcsak az eredetileg tervezett problémákat tudják megoldani, hanem jobban is, mint az egyetemisták.

GPT-4 felülmúlja GPT-35 a különböző tanulmányi benchmarkokon

Néhány dolgot figyelembe kell venni ennek az eredménynek a megtekintésekor. Először is a GPT-4 nem kapott speciális képzést ezekre a vizsgákra. A legfrissebb nyilvánosan elérhető tesztek felhasználásával (olimpiák és AP ingyenes válaszkérdések esetén) vagy a 2022–2023-as gyakorlati vizsgák megvásárlásával történt. Másodszor fontos megjegyezni, hogy a GPT-4Előfordulhat, hogy a teljesítménye nem feltétlenül tükrözi az emberi tesztet végzők képességeit, mivel más elvek és algoritmusok alapján működik.

Ez jelentős eredmény, mint ez azt mutatja hogy a gépek nemcsak emberszerű intelligenciára képesek, hanem felülmúlhatnak minket. Ez megnyitja az utat egy olyan jövő felé, ahol a gépek egyre összetettebb feladatokat látnak el, ami végső soron egy olyan jövő felé vezet, amelyben segítségünkre lehetnek a mindennapi életünkben.

A GPT-4Az, hogy bizonyos feladatokban felülmúlja az embereket, kérdéseket vet fel a jövővel kapcsolatban mesterséges intelligencia és potenciális hatása a munkaerőpiacra. Azt is kiemeli, hogy ezen a területen folytatni kell a kutatást és a fejlesztést annak biztosítása érdekében, hogy az AI-t etikusan és felelősségteljesen használják fel.
Bővebben: 5+ 2023 legjobban várt szöveg-kép AI modellje

GPT-4például sikeresen teljesít egy szimulált ügyvédi vizsgát úgy, hogy a vizsgázók legjobb 10%-ában szerepel; GPT-3.5 pontszáma az alsó 10%-ban volt. Ez a jelentős javulás a GPT-4A teljesítmény a nagyobb képzési adatoknak és a továbbfejlesztett architektúrának köszönhető. Várhatóan számos alkalmazási körrel fog rendelkezni különböző területeken, beleértve a természetes nyelvi feldolgozást és az automatizált írást.

 
GPT-4 emberi szintű teljesítményt mutat a szakmai és tudományos vizsgák többségén. Figyelemre méltó, hogy sikeresen teljesítette az Uniform Bar Examination szimulált változatát, a vizsgázók legjobb 10%-a között. Úgy tűnik, hogy a modell képességei a vizsgákon elsősorban az előképzési folyamatból fakadnak, és az RLHF nem befolyásolja őket jelentősen. A feleletválasztós kérdéseknél mind az alap GPT-4 modell és az RLHF modell átlagosan egyformán jól teljesített a tesztelt vizsga fejlesztői között.

A legkorszerűbb (SOTA) modellek többsége, beleértve azokat is, amelyek további képzési protokollokat vagy benchmark-specifikus tervezést használnak, valamint a meglévő nagy nyelvi modellek, jelentősen felülmúlják a GPT-4.

GPT-4teljesítménye a tudományos színvonal tekintetében. A fejlesztők kontrasztja GPT-4 a legjobb SOTA-val az LM által értékelt néhány lövéshez, valamint a legjobb SOTA-val benchmark-specifikus képzéssel. A DROP kivételével GPT-4 felülmúlja az összes jelenlegi LM-t minden benchmarkon és a SOTA-t a benchmark-specifikus képzéssel.

Belsőleg a fejlesztők használták GPT-4, amely jelentős hatással volt az olyan tevékenységekre, mint a programozás, az értékesítés, a támogatás és a tartalom moderálása. Az összehangolási módszerünk második szakasza most zajlik, mivel a fejlesztők arra használják, hogy segítsék az embereket a mesterséges intelligencia eredményeinek áttekintésében.

Az MMLU (Massive Multi-Task Language Understanding) adatkészlet nagyon széles témában tartalmaz kérdéseket a nyelvértésről különböző feladatokban (57 területre kiterjedően, beleértve a matematikát, biológiát, jogot, társadalom- és humán tudományokat stb.). A kérdésre négy lehetséges válasz adható, amelyek közül az egyik helyes. Vagyis a véletlenszerű találgatás 25%-os helyes válasz eredményét mutatja. Az alábbi képen talál példákat a kérdésekre és a nehézségeikre. Az átlagos személyjelölő (azaz nem tudós, nem professzor – egy hétköznapi ember, aki holdfényt jelöl) a kérdések 35%-ára válaszol helyesen; a szakértők azonban elérhetik a +/- 90%-os pontszámot.

Előadása GPT-4 számos nyelven az MMLU korábbi angol nyelvű modelljeihez képest. GPT-4 meghaladja a meglévő nyelvi modellek angol nyelvi teljesítményét a vizsgált nyelvek túlnyomó többsége esetében, beleértve az olyan alacsony forrásigényű nyelveket, mint a lett, a walesi és a szuahéli.
Bővebben: 5 ok, amiért érdemes használni az AI-alapú Binget a Google felett

Eredetileg a teljes adatkészlet angol nyelvű volt. De mi van akkor, ha a kérdéseket és válaszokat más nyelvekre is lefordítják, különösen a kevésbé gyakori nyelvekre? Vajon sikerül nekik valahogy a modell? Ebben a tesztben a Microsoft Azure Translate szolgáltatást használtuk a fordításhoz. A fordítások nem tökéletesek; bizonyos esetekben fontos információk vesznek el. Azonban még ebben az esetben is a GPT-4 más nyelveken is jól teljesít. Az MMLU lefordított verzióiban GPT-4 a 24 vizsgált nyelv közül 26-el felülmúlja más nagy modellek (beleértve a Googleét is) angol nyelvi szintjét.

Mi több, GPT-4 ritka nyelveken jobban teljesít, mint ChatGPT angolul csináltam (ChatGPT 70.1%-ot ért el, míg az új modell thai nyelven elért pontszáma 71.8% volt. Az angol nyelvű teszt pontszáma volt a legmagasabb, a GPT-4 10%-kal jobban teljesít, mint más modellek, köztük a Google legnagyobb PaLM-je. 86.4%-ot ért el, míg egy szakértői csoport 90%-ot.

  • 2023 nyarára a mesterséges intelligencia új teljesítményszintet érhetett el, köszönhetően ChatGPT, egy chatbot, amely a GPT-4 algoritmus és felülmúlja GPT-3 570-szeres tényezővel. Számos elem járul hozzá ChatGPTa siker, beleértve a „emberszerűbb” tervezést, valamint a legmodernebb adatbányászat és természetes nyelvi feldolgozás alkalmazását a hatékonyság és a pontosság növelése érdekében.
  • Microsoft és OpenAI januárban bejelentették együttműködésük megújítását, és azt tervezik, hogy a Bing Search átveszi az AI által továbbfejlesztett keresési képességeket. A nagyon kifinomult GPT3.5 modell csere, GPT4, most indult, és nagyban megnövelheti a Bing keresés képességét a természetes nyelvű lekérdezések megértésére és pontosabb eredmények elérésére. Célszerű egy jó biztonsági terv arra az esetre, ha valami rosszul sülne el.

Olvasson további kapcsolódó híreket:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

További cikkek
Damir Jalalov
Damir Jalalov

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

A volatilitás közepette nő az intézményi étvágy a Bitcoin ETF-ek felé

A 13F bejelentéseken keresztül közzétett információk jelentős intézményi befektetőket tárnak fel a Bitcoin ETF-ek iránt, ami alátámasztja a ...

Tudjon meg többet

Elérkezett az ítélethirdetés napja: CZ sorsa egyensúlyban van, mivel az Egyesült Államok bírósága mérlegeli a DOJ kérelmét

Changpeng Zhao ítéletet vár ma egy seattle-i amerikai bíróságon.

Tudjon meg többet
Csatlakozzon innovatív technológiai közösségünkhöz
KATT ide
Tovább
Az Injective egyesíti erőit az AltLayerrel, hogy biztonságot nyújtson az inEVM számára
üzleti Tudósítást Technológia
Az Injective egyesíti erőit az AltLayerrel, hogy biztonságot nyújtson az inEVM számára
May 3, 2024
A Masa a Tellerrel együttműködve bevezeti a MASA hitelintézetet, amely lehetővé teszi az USDC hitelfelvételt.
piacok Tudósítást Technológia
A Masa a Tellerrel együttműködve bevezeti a MASA hitelintézetet, amely lehetővé teszi az USDC hitelfelvételt.
May 3, 2024
A Velodrome a következő hetekben elindítja a Superchain béta verzióját, és az OP Stack Layer 2 blokkláncaira is kiterjed
piacok Tudósítást Technológia
A Velodrome a következő hetekben elindítja a Superchain béta verzióját, és az OP Stack Layer 2 blokkláncaira is kiterjed
May 3, 2024
A CARV partnerséget hirdet az Aethirrel adatrétegének decentralizálása és a jutalmak elosztása érdekében
üzleti Tudósítást Technológia
A CARV partnerséget hirdet az Aethirrel adatrétegének decentralizálása és a jutalmak elosztása érdekében
May 3, 2024
CRYPTOMERIA LABS PTE. KFT.