GPT-4 päihittää GPT-3.5 Kaiken kaikkiaan erilaisissa opintojen vertailuarvoissa
Lyhyesti
- GPT-4 on saavuttanut korkeamman arvosanakynnyksen kuin GPT-3.5 useilla eri mittareilla.
Tämä on suuri saavutus, koska se osoittaa, että koneet eivät pysty pelkästään ihmisen kaltaiseen älykkyyteen, vaan ne voivat myös ylittää meidät, mikä herättää kysymyksiä tekoälyn tulevaisuudesta ja sen mahdollisista vaikutuksista työmarkkinoille.
GPT-4 on huomattavasti parempi kuin huipputekniikan (SOTA) mallit, mukaan lukien sellaiset, jotka käyttävät lisäharjoitusprotokollia tai vertailukohtaista suunnittelua, sekä olemassa olevat suuret kielimallit.
- GPT-4 on saavuttanut korkeammat pisteet kuin GPT-3.5 useilla eri mittareilla. Tämä on suuri läpimurto koneiden kannalta, sillä se osoittaa, että ne eivät pysty nyt vain ratkaisemaan ongelmia, jotka on alun perin suunniteltu, vaan pystyvät myös tekemään sen paremmin kuin yliopisto-opiskelijat.
Tätä tulosta tarkasteltaessa on otettava huomioon muutama seikka. Ensinnäkin, GPT-4 hänelle ei annettu erityiskoulutusta näihin kokeisiin. Se eteni käyttämällä viimeisimpiä julkisesti saatavilla olevia testejä (olympialaisten ja AP-vapaavastauskysymyksissä) tai ostamalla vuosien 2022–2023 harjoituskokeet. Toiseksi on tärkeää huomata, että GPT-4Suorituskyky ei välttämättä heijasta ihmisen testaajien kykyjä, koska se toimii eri periaatteiden ja algoritmien mukaan.
Tämä on merkittävä saavutus as se näyttää että koneet eivät pysty ainoastaan ihmisen kaltaiseen älykkyyteen, vaan ne voivat myös ylittää meidät. Tämä tasoittaa tietä tulevaisuudelle, jossa koneet voivat hoitaa yhä monimutkaisempia tehtäviä ja johtaa lopulta tulevaisuuteen, jossa ne voivat auttaa meitä jokapäiväisessä elämässämme.
GPT-4esimerkiksi läpäisee simuloidun baarikokeen pistemäärällä kokeen ottajista 10 parhaan joukossa; GPT-3.5:n tulos oli alimmassa 10 %:ssa. Tämä merkittävä parannus GPT-4suorituskyky johtuu sen suuremmasta harjoitustiedosta ja parannetusta arkkitehtuurista. Sillä odotetaan olevan laaja valikoima sovelluksia eri aloilla, mukaan lukien luonnollisen kielen käsittely ja automaattinen kirjoittaminen.
Suurin osa huipputekniikan (SOTA) malleista, mukaan lukien ne, jotka voivat käyttää lisäharjoitusprotokollia tai vertailukohtaista suunnittelua, sekä olemassa olevat suuret kielimalleja, ovat huomattavasti parempia kuin GPT-4.
Sisäisesti kehittäjät ovat käyttäneet GPT-4, jolla on ollut merkittävä vaikutus toimintoihin, kuten ohjelmointiin, myyntiin, tukeen ja sisällön valvontaan. Kohdistusmenetelmämme toinen vaihe on nyt käynnissä, kun kehittäjät käyttävät sitä auttamaan ihmisiä arvioimaan tekoälyn tuloksia.
MMLU (Massive Multi-Task Language Understanding) -aineisto sisältää kysymyksiä erittäin laajasta joukosta kielen ymmärtämistä eri tehtävissä (kattaa 57 alaa, mukaan lukien matematiikka, biologia, oikeustieteet, yhteiskunta- ja humanistitieteet jne.). Kysymykseen on neljä vastausvaihtoehtoa, joista yksi on oikea. Eli satunnainen arvaus näyttää tuloksen 25 % oikeista vastauksista. Katso alla olevasta kuvasta esimerkkejä kysymyksistä ja niiden vaikeuksista. Keskimääräinen henkilömerkki (eli tämä ei ole tiedemies, ei professori - tavallinen ihminen, joka näyttää kuutamoa) vastaa oikein 35 prosenttiin kysymyksistä; asiantuntijat voivat kuitenkin saavuttaa +/- 90 %.
Alun perin koko tietojoukko oli englanniksi. Mutta entä jos kysymykset ja vastaukset käännetään muille kielille, etenkin vähemmän yleisille kielille? Toimiiko malli heille jotenkin? Tässä testissä käännökseen käytettiin Microsoft Azure Translate -palvelua. Käännökset eivät ole täydellisiä; joissakin tapauksissa tärkeät tiedot menetetään. Kuitenkin myös tässä tapauksessa GPT-4 toimii hyvin muilla kielillä. MMLU:n käännetyissä versioissa GPT-4 ylittää muiden suurten mallien (mukaan lukien Googlen) englannin tason 24:llä 26:sta tutkitusta kielestä.
Lisäksi, GPT-4 toimii paremmin harvinaisilla kielillä kuin ChatGPT teki englanniksi (ChatGPT saavutti pistemäärän 70.1 prosenttia, kun taas uuden mallin pisteet thaimaassa olivat 71.8 prosenttia. Englanninkielisen kokeen pisteet olivat korkeimmat GPT-4 suorituskyky on 10 % parempi kuin muut mallit, mukaan lukien Googlen suurin PaLM. Se saavutti 86.4 %, kun taas asiantuntijaryhmä 90 %.
- Kesään 2023 mennessä tekoäly on saattanut saavuttaa uuden tehotason ChatGPT, chatbot, joka käyttää GPT-4 algoritmi ja päihittää GPT-3 kertoimella 570. Erilaiset elementit vaikuttavat siihen ChatGPTYrityksen menestys, mukaan lukien sen suunnittelu "inhimillisemmäksi" ja huippuluokan tiedon louhinnan ja luonnollisen kielen käsittelyn käyttö tehokkuuden ja tarkkuuden lisäämiseksi.
- Microsoft ja OpenAI ilmoittivat tammikuussa yhteistyön uusimisesta ja suunnitelmistaan, että Bing search ottaa käyttöön tekoälyllä parannetut hakuominaisuudet. Erittäin hienostunut GPT3.5 mallin vaihto, GPT4, on juuri käynnistetty, ja se voi parantaa huomattavasti Bing-haun kykyä ymmärtää luonnollisen kielen kyselyitä ja tuottaa tarkempia tuloksia. On hyvä idea tehdä hyvä varasuunnitelma siltä varalta, että jokin menee pieleen.
Lue lisää aiheeseen liittyviä uutisia:
Vastuun kieltäminen
Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.
Author
Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.
lisää artikkeleitaDamir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.