Novice Tehnologija
Marec 15, 2023

GPT-4 Presega GPT-3.5 Vsestransko na različnih študijskih merilih

Na kratko

O GPT-4 je dosegel višji razredni prag od GPT-3.5 na različnih merilih.

To je velik dosežek, saj kaže, da stroji niso samo zmožni človeške inteligence, ampak nas lahko tudi prekašajo, kar postavlja vprašanja o prihodnosti umetne inteligence in njenem potencialnem vplivu na trg dela.

GPT-4 je znatno boljši od najsodobnejših (SOTA) modelov, vključno s tistimi, ki uporabljajo dodatne protokole za usposabljanje ali primerjalno specifično zasnovo, kot tudi obstoječih velikih jezikovnih modelov.

O GPT-4 je dosegel višje rezultate kot GPT-3.5 na različnih merilih. To je velik preboj za stroje, saj dokazuje, da zdaj ne morejo le rešiti problemov, za katere so bili prvotno zasnovani, temveč lahko to počnejo tudi bolje kot univerzitetni študenti.

GPT-4 prekaša GPT-3.5 povsod na različnih študijskih merilih

Ko gledate ta rezultat, je treba upoštevati nekaj stvari. Prvič, GPT-4 za te izpite ni prejel nobenega posebnega usposabljanja. Nadaljevalo se je z uporabo najnovejših javno dostopnih testov (v primeru olimpijad in vprašanj z brezplačnimi odgovori AP) ali z nakupom izdaj izpitov za vadbo 2022–2023. Drugič, pomembno je omeniti, da GPT-4Uspešnost morda ne odraža nujno sposobnosti človeških preizkuševalcev, saj deluje na drugačnem naboru načel in algoritmov.

To je velik dosežek kot kaže da stroji niso samo sposobni človeške inteligence, ampak nas lahko tudi prekašajo. To utira pot v prihodnost, v kateri lahko stroji prevzemajo vedno bolj zapletene naloge, kar na koncu vodi v prihodnost, v kateri nam lahko pomagajo v vsakdanjem življenju.

O GPT-4Sposobnost, da pri določenih nalogah preseže ljudi, postavlja vprašanja o prihodnosti Umetna inteligenca in njen potencialni vpliv na trg dela. Poudarja tudi potrebo po nadaljnjih raziskavah in razvoju na tem področju, da bi zagotovili etično in odgovorno uporabo umetne inteligence.
Preberite več: 5+ najbolj pričakovanih modelov umetne inteligence s pretvorbo besedila v sliko leta 2023

GPT-4, na primer, opravi simulirani pravosodni izpit z oceno med 10 % najboljših udeležencev testa; GPT-3Rezultat .5 je bil v spodnjih 10 %. To znatno izboljšanje v GPT-4Učinkovitost je posledica večjih podatkov o usposabljanju in izboljšane arhitekture. Pričakuje se, da bo imel široko paleto aplikacij na različnih področjih, vključno z obdelavo naravnega jezika in avtomatiziranim pisanjem.

 
GPT-4 na večini teh strokovnih in akademskih izpitov kaže uspešnost na človeški ravni. Predvsem je opravil simulirano različico enotnega pravosodnega izpita z rezultatom med 10 % najboljših udeležencev testa. Zdi se, da zmožnosti modela na izpitih izhajajo predvsem iz procesa pred usposabljanjem in RLHF nanje ne vpliva bistveno. Pri vprašanjih z več možnimi odgovori tako osnova GPT-4 model in model RLHF sta se v povprečju izkazala enako dobro pri razvijalcih testiranega izpita.

Večina najsodobnejših (SOTA) modelov, vključno s tistimi, ki morda uporabljajo dodatne protokole za usposabljanje ali primerjalno specifično zasnovo, kot tudi obstoječi veliki jezikovni modeli, so znatno boljši od GPT-4.

GPT-4uspešnosti v smislu akademskih standardov. Kontrast razvijalcev GPT-4 z najboljšo SOTA za nekaj strelov, ocenjeno z LM, kot tudi z najboljšo SOTA z usposabljanjem, specifičnim za merila uspešnosti. Z izjemo DROP, GPT-4 prekaša vse trenutne LM na vseh merilih uspešnosti in SOTA z usposabljanjem, specifičnim za merila uspešnosti.

Interno so razvijalci uporabljali GPT-4, kar je pomembno vplivalo na dejavnosti, kot so programiranje, prodaja, podpora in moderiranje vsebine. Druga stopnja naše metode usklajevanja je zdaj v teku, saj jo razvijalci uporabljajo za pomoč ljudem pri pregledovanju rezultatov umetne inteligence.

Nabor podatkov MMLU (Massive Multi-Task Language Understanding) vsebuje vprašanja iz zelo širokega nabora tem o razumevanju jezika pri različnih nalogah (ki zajema 57 področij, vključno z matematiko, biologijo, pravom, družbenimi in humanističnimi vedami itd.). Na vprašanje so možni štirje odgovori, od katerih je eden pravilen. To pomeni, da naključno ugibanje pokaže rezultat 25% pravilnih odgovorov. Oglejte si spodnjo sliko za primere vprašanj in njihove težave. Povprečna oseba-označevalec (to je, da to ni znanstvenik, ne profesor – navadna oseba, ki dela kot oznaka) pravilno odgovori na 35% vprašanj; vendar lahko strokovnjaki dosežejo rezultat +/- 90 %.

Izvedba GPT-4 v različnih jezikih v primerjavi s prejšnjimi modeli v angleščini na MMLU. GPT-4 presega zmogljivost obstoječih jezikovnih modelov v angleškem jeziku za veliko večino pregledanih jezikov, vključno z jeziki z malo sredstev, kot so latvijščina, valižanščina in svahili.
Preberite več: 5 razlogov za uporabo Binga, ki ga poganja AI namesto Googla

Prvotno je bil celoten nabor podatkov v angleščini. Kaj pa, če so vprašanja in odgovori prevedeni v druge jezike, zlasti manj običajne? Jim bo model nekako uspel? V tem testu je bila za prevajanje uporabljena storitev Microsoft Azure Translate. Prevodi niso popolni; v nekaterih primerih se pomembne informacije izgubijo. Vendar tudi v tem primeru GPT-4 dobro deluje v drugih jezikih. V prevedenih različicah MMLU je GPT-4 presega raven angleščine drugih velikih modelov (vključno z Googlovim) za 24 od 26 pregledanih jezikov.

Kaj je več, GPT-4 deluje bolje v redkih jezikih kot ChatGPT naredil v angleščini (ChatGPT dosegel rezultat 70.1 %, medtem ko je rezultat novega modela za Tajščino znašal 71.8 %. Najvišja ocena je bila pri testu iz angleščine, s GPT-4 10 % boljši od drugih modelov, vključno z največjim Googlovim PaLM. Dosegla je rezultat 86.4%, skupina strokovnjakov pa 90%.

  • Do poletja 2023 bi umetna inteligenca morda dosegla novo raven moči zahvaljujoč ChatGPT, chatbot, ki uporablja GPT-4 algoritem in prekaša GPT-3 s faktorjem 570. Različni elementi prispevajo k ChatGPTuspeh, vključno z njegovo zasnovo, ki je bolj »človeško podobna«, in uporabo vrhunskega podatkovnega rudarjenja in obdelave naravnega jezika za povečanje učinkovitosti in natančnosti.
  • Microsoft in OpenAI sta napovedala obnovitev sodelovanja in načrte za iskanje Bing, da januarja sprejme zmožnosti iskanja, izboljšane z umetno inteligenco. Zelo sofisticirano GPTzamenjava modela 3.5, GPT4, je bil pravkar predstavljen, in ima potencial za močno izboljšanje zmožnosti iskanja Bing za razumevanje poizvedb v naravnem jeziku in zagotavljanje natančnejših rezultatov. Dobro je imeti dober rezervni načrt, če gre kaj narobe.

Preberite več povezanih novic:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

več člankov
Damir Yalalov
Damir Yalalov

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

Institucionalni apetit raste proti Bitcoin ETF-jem sredi volatilnosti

Razkritja prek vlog 13F razkrivajo pomembne institucionalne vlagatelje, ki se ukvarjajo z Bitcoin ETF, kar poudarja vse večje sprejemanje ...

Več o tem

Prihaja dan obsodbe: usoda CZ visi na ravnovesju, ko ameriško sodišče obravnava tožbeni razlog DOJ

Changpeng Zhao se danes sooča z obsodbo na ameriškem sodišču v Seattlu.

Več o tem
Pridružite se naši inovativni tehnološki skupnosti
Preberi več
Preberi več
Injective združuje moči z AltLayer, da bi v inEVM prinesel varnost preoblikovanja
ŽELITE POSTATI PARTNER Novice Tehnologija
Injective združuje moči z AltLayer, da bi v inEVM prinesel varnost preoblikovanja
Maj 3, 2024
Masa se združuje s podjetjem Teller, da uvede MASA Lending Pool, ki omogoča izposojo USDC na osnovi
Prisotnost Novice Tehnologija
Masa se združuje s podjetjem Teller, da uvede MASA Lending Pool, ki omogoča izposojo USDC na osnovi
Maj 3, 2024
Velodrome v prihodnjih tednih lansira različico Superchain Beta in se širi po verigah blokov plasti 2 sklada OP
Prisotnost Novice Tehnologija
Velodrome v prihodnjih tednih lansira različico Superchain Beta in se širi po verigah blokov plasti 2 sklada OP
Maj 3, 2024
CARV napoveduje partnerstvo z Aethirjem za decentralizacijo njegove podatkovne plasti in razdeljevanje nagrad
ŽELITE POSTATI PARTNER Novice Tehnologija
CARV napoveduje partnerstvo z Aethirjem za decentralizacijo njegove podatkovne plasti in razdeljevanje nagrad
Maj 3, 2024
CRYPTOMERIA LABS PTE. LTD.