Uutisraportti Elektroniikka
Maaliskuussa 15, 2023

GPT-4 päihittää GPT-3.5 Kaiken kaikkiaan erilaisissa opintojen vertailuarvoissa

Lyhyesti

- GPT-4 on saavuttanut korkeamman arvosanakynnyksen kuin GPT-3.5 useilla eri mittareilla.

Tämä on suuri saavutus, koska se osoittaa, että koneet eivät pysty pelkästään ihmisen kaltaiseen älykkyyteen, vaan ne voivat myös ylittää meidät, mikä herättää kysymyksiä tekoälyn tulevaisuudesta ja sen mahdollisista vaikutuksista työmarkkinoille.

GPT-4 on huomattavasti parempi kuin huipputekniikan (SOTA) mallit, mukaan lukien sellaiset, jotka käyttävät lisäharjoitusprotokollia tai vertailukohtaista suunnittelua, sekä olemassa olevat suuret kielimallit.

- GPT-4 on saavuttanut korkeammat pisteet kuin GPT-3.5 useilla eri mittareilla. Tämä on suuri läpimurto koneiden kannalta, sillä se osoittaa, että ne eivät pysty nyt vain ratkaisemaan ongelmia, jotka on alun perin suunniteltu, vaan pystyvät myös tekemään sen paremmin kuin yliopisto-opiskelijat.

GPT-4 päihittää GPT-3.5 kautta linjan erilaisissa opintojen vertailuarvoissa

Tätä tulosta tarkasteltaessa on otettava huomioon muutama seikka. Ensinnäkin, GPT-4 hänelle ei annettu erityiskoulutusta näihin kokeisiin. Se eteni käyttämällä viimeisimpiä julkisesti saatavilla olevia testejä (olympialaisten ja AP-vapaavastauskysymyksissä) tai ostamalla vuosien 2022–2023 harjoituskokeet. Toiseksi on tärkeää huomata, että GPT-4Suorituskyky ei välttämättä heijasta ihmisen testaajien kykyjä, koska se toimii eri periaatteiden ja algoritmien mukaan.

Tämä on merkittävä saavutus as se näyttää että koneet eivät pysty ainoastaan ​​ihmisen kaltaiseen älykkyyteen, vaan ne voivat myös ylittää meidät. Tämä tasoittaa tietä tulevaisuudelle, jossa koneet voivat hoitaa yhä monimutkaisempia tehtäviä ja johtaa lopulta tulevaisuuteen, jossa ne voivat auttaa meitä jokapäiväisessä elämässämme.

- GPT-4kyky ylittää ihmiset tietyissä tehtävissä herättää kysymyksiä tulevaisuudesta tekoäly ja sen mahdollinen vaikutus työmarkkinoihin. Se korostaa myös tarvetta jatkaa tutkimusta ja kehitystä tällä alalla, jotta voidaan varmistaa, että tekoälyä käytetään eettisesti ja vastuullisesti.
Lue lisää: 5+ vuoden 2023 odotetuinta tekstistä kuvaksi tekoälymallia

GPT-4esimerkiksi läpäisee simuloidun baarikokeen pistemäärällä kokeen ottajista 10 parhaan joukossa; GPT-3.5:n tulos oli alimmassa 10 %:ssa. Tämä merkittävä parannus GPT-4suorituskyky johtuu sen suuremmasta harjoitustiedosta ja parannetusta arkkitehtuurista. Sillä odotetaan olevan laaja valikoima sovelluksia eri aloilla, mukaan lukien luonnollisen kielen käsittely ja automaattinen kirjoittaminen.

 
GPT-4 osoittaa inhimillistä suorituskykyä suurimmassa osassa näistä ammatillisista ja akateemisista kokeista. Erityisesti se läpäisi Uniform Bar Examinationin simuloidun version ja sijoittui 10 prosentin kokeen ottajista. Mallin ominaisuudet kokeissa näyttävät johtuvan ensisijaisesti esikoulutusprosessista, eikä RLHF vaikuta niihin merkittävästi. Monivalintakysymyksissä molemmat perusta GPT-4 malli ja RLHF-malli menestyivät keskimäärin yhtä hyvin testatun kokeen kehittäjillä.

Suurin osa huipputekniikan (SOTA) malleista, mukaan lukien ne, jotka voivat käyttää lisäharjoitusprotokollia tai vertailukohtaista suunnittelua, sekä olemassa olevat suuret kielimalleja, ovat huomattavasti parempia kuin GPT-4.

GPT-4suorituskykyä akateemisten standardien suhteen. Kehittäjät kontrasti GPT-4 parhaalla SOTA:lla LM-arvioituun muutamaan laukaukseen sekä parhaalla SOTAlla vertailukohtaisella koulutuksella. DROPia lukuun ottamatta, GPT-4 ylittää kaikki nykyiset LM:t kaikissa vertailuissa ja SOTA:n vertailukohtaisella koulutuksella.

Sisäisesti kehittäjät ovat käyttäneet GPT-4, jolla on ollut merkittävä vaikutus toimintoihin, kuten ohjelmointiin, myyntiin, tukeen ja sisällön valvontaan. Kohdistusmenetelmämme toinen vaihe on nyt käynnissä, kun kehittäjät käyttävät sitä auttamaan ihmisiä arvioimaan tekoälyn tuloksia.

MMLU (Massive Multi-Task Language Understanding) -aineisto sisältää kysymyksiä erittäin laajasta joukosta kielen ymmärtämistä eri tehtävissä (kattaa 57 alaa, mukaan lukien matematiikka, biologia, oikeustieteet, yhteiskunta- ja humanistitieteet jne.). Kysymykseen on neljä vastausvaihtoehtoa, joista yksi on oikea. Eli satunnainen arvaus näyttää tuloksen 25 % oikeista vastauksista. Katso alla olevasta kuvasta esimerkkejä kysymyksistä ja niiden vaikeuksista. Keskimääräinen henkilömerkki (eli tämä ei ole tiedemies, ei professori - tavallinen ihminen, joka näyttää kuutamoa) vastaa oikein 35 prosenttiin kysymyksistä; asiantuntijat voivat kuitenkin saavuttaa +/- 90 %.

Suoritus GPT-4 useilla kielillä verrattuna aiempiin englanninkielisiin malleihin MMLU:ssa. GPT-4 ylittää olemassa olevien kielimallien englannin kielen suorituskyvyn suurimmassa osassa tutkituista kielistä, mukaan lukien vähän resursseja käyttävät kielet, kuten latvia, kymri ja swahili.
Lue lisää: 5 syytä käyttää tekoälyllä toimivaa Bingiä Googlen yli

Alun perin koko tietojoukko oli englanniksi. Mutta entä jos kysymykset ja vastaukset käännetään muille kielille, etenkin vähemmän yleisille kielille? Toimiiko malli heille jotenkin? Tässä testissä käännökseen käytettiin Microsoft Azure Translate -palvelua. Käännökset eivät ole täydellisiä; joissakin tapauksissa tärkeät tiedot menetetään. Kuitenkin myös tässä tapauksessa GPT-4 toimii hyvin muilla kielillä. MMLU:n käännetyissä versioissa GPT-4 ylittää muiden suurten mallien (mukaan lukien Googlen) englannin tason 24:llä 26:sta tutkitusta kielestä.

Lisäksi, GPT-4 toimii paremmin harvinaisilla kielillä kuin ChatGPT teki englanniksi (ChatGPT saavutti pistemäärän 70.1 prosenttia, kun taas uuden mallin pisteet thaimaassa olivat 71.8 prosenttia. Englanninkielisen kokeen pisteet olivat korkeimmat GPT-4 suorituskyky on 10 % parempi kuin muut mallit, mukaan lukien Googlen suurin PaLM. Se saavutti 86.4 %, kun taas asiantuntijaryhmä 90 %.

  • Kesään 2023 mennessä tekoäly on saattanut saavuttaa uuden tehotason ChatGPT, chatbot, joka käyttää GPT-4 algoritmi ja päihittää GPT-3 kertoimella 570. Erilaiset elementit vaikuttavat siihen ChatGPTYrityksen menestys, mukaan lukien sen suunnittelu "inhimillisemmäksi" ja huippuluokan tiedon louhinnan ja luonnollisen kielen käsittelyn käyttö tehokkuuden ja tarkkuuden lisäämiseksi.
  • Microsoft ja OpenAI ilmoittivat tammikuussa yhteistyön uusimisesta ja suunnitelmistaan, että Bing search ottaa käyttöön tekoälyllä parannetut hakuominaisuudet. Erittäin hienostunut GPT3.5 mallin vaihto, GPT4, on juuri käynnistetty, ja se voi parantaa huomattavasti Bing-haun kykyä ymmärtää luonnollisen kielen kyselyitä ja tuottaa tarkempia tuloksia. On hyvä idea tehdä hyvä varasuunnitelma siltä varalta, että jokin menee pieleen.

Lue lisää aiheeseen liittyviä uutisia:

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

lisää artikkeleita
Damir Yalalov
Damir Yalalov

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

Institutionaalinen ruokahalu kasvaa kohti Bitcoin ETF:iä volatiliteetin keskellä

13F-hakemusten kautta tehdyt ilmoitukset paljastavat merkittäviä institutionaalisia sijoittajia, jotka harrastavat Bitcoinin ETF:itä, mikä korostaa kasvavaa hyväksyntää ...

Tiedä enemmän

Tuomiopäivä saapuu: CZ:n kohtalo on tasapainossa, kun Yhdysvaltain tuomioistuin harkitsee DOJ:n vetoomusta

Changpeng Zhao odottaa tänään tuomiota Yhdysvaltain oikeudessa Seattlessa.

Tiedä enemmän
Liity innovatiiviseen teknologiayhteisöömme
Lue lisää
Lue lisää
Injective yhdistää voimansa AltLayerin kanssa tuodakseen Restakingin turvallisuuden inEVM:ään
Bisnes Uutisraportti Elektroniikka
Injective yhdistää voimansa AltLayerin kanssa tuodakseen Restakingin turvallisuuden inEVM:ään
Voi 3, 2024
Masa tekee yhteistyötä Tellerin kanssa ottaakseen käyttöön MASA-lainauspoolin, mikä mahdollistaa USDC-lainauksen pohjalta
markkinat Uutisraportti Elektroniikka
Masa tekee yhteistyötä Tellerin kanssa ottaakseen käyttöön MASA-lainauspoolin, mikä mahdollistaa USDC-lainauksen pohjalta
Voi 3, 2024
Velodrome julkaisee Superchain Beta -version tulevina viikkoina ja laajenee OP Stack Layer 2 -lohkoketjuihin
markkinat Uutisraportti Elektroniikka
Velodrome julkaisee Superchain Beta -version tulevina viikkoina ja laajenee OP Stack Layer 2 -lohkoketjuihin
Voi 3, 2024
CARV ilmoittaa yhteistyöstä Aethirin kanssa tietokerroksen hajauttamiseksi ja palkintojen jakamiseksi
Bisnes Uutisraportti Elektroniikka
CARV ilmoittaa yhteistyöstä Aethirin kanssa tietokerroksen hajauttamiseksi ja palkintojen jakamiseksi
Voi 3, 2024
CRYPTOMERIA LABS PTE. OY.