Uutisraportti Elektroniikka
Heinäkuu 20, 2023

Stanfordin tutkimus vahvistaa GPT-4 Menee tyhmäksi

Lyhyesti

Matei Zaharian ja hänen tiiminsä Stanfordista ja UC Berkeleystä tekemässä tutkimuksessa verrattiin suorituskykyä GPT-4 ja ChatGPT vastatakseen käyttäjien huoleen mallin tehokkuudesta.

Tutkimuksessa arvioitiin malleja neljässä erityistehtävässä: matematiikka, koodaus, herkkyys ja visuaalinen päättely.

Matei Zaharia ja hänen tiiminsä Stanfordista ja UC Berkeleystä suoritti tutkimuksen joka vertasi suorituskykyä GPT-4 että ChatGPT. Tällä tutkimuksella pyrittiin vastaamaan käyttäjien huoleen siitä, että mallin tehokkuus oli heikentynyt.

Stanfordin tutkimus vahvistaa GPT-4 Menee tyhmäksi
Pistetilanne: Metaverse Post
liittyvä: GPT-4 vs. GPT-3: Mitä uudella mallilla on tarjottavanaan?

Tutkijat suunnittelivat tutkimuksen arvioimaan malleja neljässä erityistehtävässä. Näihin tehtäviin kuului:

  • Matematiikka: Mallin kyky määrittää, onko tietty luku alkuluku vai yhdistelmäluku.
  • Koodaus: Arvioidaan mallin kykyä luoda mielekästä ja toimivaa koodia.
  • Herkkyys: Analysoi mallin vastauksia kysymyksiin, joissa on mahdollisesti "myrkyllistä" sisältöä.
  • Visuaalinen päättely: Mallin soveltuvuuden testaaminen visuaalisia kuvioita sisältävien ongelmien ratkaisemiseen ARC-benchmarkin avulla. Osallistujien piti tunnistaa kuvioita kuvasarjasta ja soveltaa niitä uuden esimerkin ratkaisemiseen.

Matematiikan alalla molemmat GPT-4 versiot, maalis- ja kesäkuun julkaisut, osoittivat johdonmukaista tarkkuutta alku- ja yhdistelmälukujen määrittämisessä. Mallit osoittivat pätevyyttä näiden laskelmien käsittelyssä ja antoivat luotettavia tuloksia.

Siirryn koodaukseen, GPT-4 esitti parannetun kyvyn tuottaa mielekästä ja toimivaa koodia edeltäjiinsä verrattuna. Mallin koodinluontiominaisuudet olivat lupaavia ja tarjosivat potentiaalisia etuja kehittäjille ja ohjelmoijille.

Herkkyyden osalta tutkimuksessa arvioitiin mallien vastauksia kysymyksiin, jotka sisältävät mahdollisesti haitallista tai loukkaavaa sisältöä. GPT-4 osoitti parannetun herkkyysanalyysin ja parantuneen kyvyn tarjota asianmukaisia ​​vastauksia tällaisissa yhteyksissä. Tämä on myönteinen askel eteenpäin käyttäjien mahdollisten ongelmallisten tulosten aiheuttamien huolenaiheiden käsittelyssä.

Lopuksi molemmat suorittivat onnistuneesti ARC-benchmarkiin perustuvat visuaaliset päättelytehtävät GPT-4 versiot. Mallit tunnistivat tehokkaasti kuvioita kuvasarjoista ja osoittivat kyvyn soveltaa näitä malleja uusien esimerkkien ratkaisemiseen. Tämä osoittaa heidän kykynsä visuaaliseen ymmärtämiseen ja päättelyyn.

Tulokset osoittavat sen GPT-4 tarkkuus heikkeni, ja oikeita vastauksia oli vain hieman yli 2 %. On tärkeää huomata, että tämä testi arvioi ensisijaisesti mallin kykyä muistaa tietoja sen sijaan, että se esittelee sen luontaisia ​​matemaattisia kykyjä. Tehtävä pyörii muistin palauttamisen ympärillä, koska mallista puuttuu kyky laskennan validointiin ja päättelyyn, varsinkin kun on kyse alkuluvuista.

ChatGPT osoitti huomattavaa kasvua suorituskykymittareissa kesäkuuhun mennessä, mikä osoitti merkittävää, yli kymmenkertaista parannusta. Vaikka tutkimuksessa ei tutkittu erityisiä tekijöitä, jotka vaikuttavat tähän tehostukseen, se korostaa ChatGPTn etenemistä matemaattisessa päättelyssä ja ongelmanratkaisukyvyssä.

Tutkimuksessa ei arvioitu luodun koodin laatua tai oikeellisuutta. Sen sijaan mallit näyttivät käyttäytyvän "muokattummin", tarjoten koodinpätkiä varmistamatta niiden toiminnallista tarkkuutta.
liittyvä: Yli 10 parasta tekoälykuvan tehostajaa vuonna 2023

Laatu GPT-4 ja ChatGPT on kyseenalaistettu heidän ohjelmointikykynsä analyysin jälkeen. Tarkempi tarkastelu paljastaa kuitenkin joitain kiehtovia vivahteita, jotka ovat ristiriidassa ensivaikutelman kanssa.

Tekijät eivät suorittaneet tai varmistaneet koodin oikeellisuutta; heidän arvionsa perustui yksinomaan sen pätevyyteen Python-koodina. Lisäksi mallit näyttivät oppineen tietyn koodin kehystystekniikan käyttämällä koristelua, joka tahattomasti haittasi koodin suorittamista.

Tämän seurauksena käy ilmeiseksi, että tuloksia tai itse koetta ei voida pitää todisteena mallin huonontumisesta. Sen sijaan mallit osoittavat erilaista lähestymistapaa vastausten luomiseen, mikä mahdollisesti heijastaa vaihteluita heidän koulutuksessaan.

Ohjelmointi- ja matemaattisten kykyjen tarkastus GPT-4 ja ChatGPT on valaisenut mielenkiintoisia löytöjä. Toisin kuin alkuperäiset olettamukset, mallit osoittivat merkittäviä parannuksia joillakin alueilla, kun taas toisilla käytöksissä tapahtui muutoksia.

Mitä tulee ohjelmointitehtäviin, molemmat mallit osoittivat vähentyneen vastaamisen "vääriin" kehotteisiin GPT-4 yli nelinkertaistaa tällaisissa tapauksissa. Lisäksi Visual Reasoning -tehtävässä vastausten laatu parani parilla prosenttiyksiköllä molemmissa malleissa. Nämä havainnot osoittavat pikemminkin edistymistä kuin suorituskyvyn heikkenemistä.

Matemaattisten taitojen arviointi tuo kuitenkin esiin kiehtovan elementin. Mallit tarjosivat johdonmukaisesti vastauksina alkulukuja, mikä osoitti johdonmukaista "kyllä"-vastausta. Kuitenkin, kun otokseen otettiin käyttöön yhdistettyjä lukuja, kävi ilmi, että mallit muuttivat käyttäytymistään ja alkoivat antaa "ei"-vastauksia, mikä viittaa epävarmuuteen pikemminkin kuin laadun heikkenemiseen. Itse testi on erikoinen ja yksipuolinen, ja sen tulokset voidaan johtua mallikäyttäytymisen muutoksista eikä laadun heikkenemisestä.

On tärkeää huomata, että API-versiot testattiin, ei selainpohjaisia ​​versioita. Vaikka on mahdollista, että selaimen malleja on muokattu resurssien optimoimiseksi, liitteenä oleva tutkimus ei defitodistaa tämä hypoteesi lopullisesti. Tällaisten muutosten vaikutus voi olla verrattavissa todellisiin mallien alentamiseen, mikä johtaa mahdollisiin haasteisiin käyttäjille, jotka luottavat tiettyyn toimintaan. ohjeita ja kertynyt kokemus.

Kun kyseessä on GPT-4 API-sovelluksissa näillä poikkeamilla käyttäytymisessä voi olla konkreettisia seurauksia. Tietyn käyttäjän tarpeiden ja tehtävien perusteella kehitetty koodi ei välttämättä enää toimi tarkoitetulla tavalla, jos mallin käyttäytyminen muuttuu.

On suositeltavaa, että käyttäjät sisällyttävät samanlaisia ​​testauskäytäntöjä työnkulkuihinsa. Luomalla kehotteita, liitetekstejä ja odotettuja tuloksia käyttäjät voivat säännöllisesti tarkistaa odotustensa ja mallin vastausten välisen johdonmukaisuuden. Heti kun poikkeamia havaitaan, voidaan ryhtyä asianmukaisiin toimenpiteisiin tilanteen korjaamiseksi.

Lue lisää tekoälystä:

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

lisää artikkeleita
Damir Yalalov
Damir Yalalov

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

Hot Stories
Liity uutiskirjeemme jäseneksi.
Uusimmat uutiset

Institutionaalinen ruokahalu kasvaa kohti Bitcoin ETF:iä volatiliteetin keskellä

13F-hakemusten kautta tehdyt ilmoitukset paljastavat merkittäviä institutionaalisia sijoittajia, jotka harrastavat Bitcoinin ETF:itä, mikä korostaa kasvavaa hyväksyntää ...

Tiedä enemmän

Tuomiopäivä saapuu: CZ:n kohtalo on tasapainossa, kun Yhdysvaltain tuomioistuin harkitsee DOJ:n vetoomusta

Changpeng Zhao odottaa tänään tuomiota Yhdysvaltain oikeudessa Seattlessa.

Tiedä enemmän
Liity innovatiiviseen teknologiayhteisöömme
Lue lisää
Lue lisää
Nexo aloittaa metsästyksen palkitakseen käyttäjiä 12 miljoonalla dollarilla NEXO-tokeneilla ekosysteeminsä kanssa käymisestä
markkinat Uutisraportti Elektroniikka
Nexo aloittaa metsästyksen palkitakseen käyttäjiä 12 miljoonalla dollarilla NEXO-tokeneilla ekosysteeminsä kanssa käymisestä
Voi 8, 2024
Revolutin Revolut X Exchange Woos Crypto Traders ilman Maker-maksuja ja Advanced Analytics
markkinat Tuotteemme Tarinoita ja arvosteluja Elektroniikka
Revolutin Revolut X Exchange Woos Crypto Traders ilman Maker-maksuja ja Advanced Analytics
Voi 8, 2024
Kryptokauppajärjestelmä BitMEX aloittaa optiokaupan 0 maksulla ja käteiskannustimilla
Bisnes markkinat Uutisraportti
Kryptokauppajärjestelmä BitMEX aloittaa optiokaupan 0 maksulla ja käteiskannustimilla
Voi 8, 2024
Lisk siirtyy virallisesti Ethereum Layer 2:een ja paljastaa Core v4.0.6:n
Uutisraportti Elektroniikka
Lisk siirtyy virallisesti Ethereum Layer 2:een ja paljastaa Core v4.0.6:n
Voi 8, 2024
CRYPTOMERIA LABS PTE. OY.