Informe de notícies Tecnologia
Març 15, 2023

GPT-4 Superiors GPT-3.5 A nivell general sobre una varietat de punts de referència d'estudi

En breu

El GPT-4 ha assolit un llindar de qualificació més alt que el GPT-3.5 en una varietat de punts de referència.

Aquest és un assoliment important, ja que demostra que les màquines no només són capaços d'intel·ligència humana, sinó que també ens poden superar, la qual cosa planteja preguntes sobre el futur de la IA i el seu impacte potencial en el mercat laboral.

GPT-4 té un rendiment significativament superior als models d'última generació (SOTA), inclosos els que utilitzen protocols d'entrenament addicionals o dissenys específics de referència, així com els grans models lingüístics existents.

El GPT-4 ha aconseguit puntuacions més altes que la GPT-3.5 en una varietat de punts de referència. Aquest és un gran avenç per a les màquines, ja que demostra que ara no només poden resoldre problemes per als quals es van dissenyar originalment, sinó que també ho poden fer millor que els estudiants universitaris.

GPT-4 supera els resultats GPT-3.5 a nivell general sobre una varietat de punts de referència d'estudi

Hi ha algunes coses a tenir en compte a l'hora de mirar aquest resultat. En primer lloc, el GPT-4 no va rebre cap formació específica per a aquests exàmens. Va procedir utilitzant les proves més recents disponibles públicament (en el cas de les Olimpíades i les preguntes de resposta gratuïta AP) o comprant les edicions 2022-2023 dels exàmens de pràctica. En segon lloc, és important tenir en compte que el GPT-4El rendiment de 's pot no reflectir necessàriament les habilitats dels examinadors humans, ja que funciona amb un conjunt diferent de principis i algorismes.

Aquest és un gran assoliment com mostra que les màquines no només són capaços d'una intel·ligència humana, sinó que també ens poden superar. Això obre el camí cap a un futur on les màquines puguin assumir tasques cada cop més complexes, i en última instància condueix a un futur en què ens puguin ajudar en la nostra vida quotidiana.

El GPT-4La capacitat de superar els humans en determinades tasques planteja preguntes sobre el futur de intel·ligència artificial i el seu impacte potencial en el mercat de treball. També destaca la necessitat de continuar la investigació i el desenvolupament en aquest camp per garantir que la IA s'utilitzi de manera ètica i responsable.
Llegir més: Els 5 models d'IA de text a imatge més esperats del 2023

GPT-4, per exemple, aprova un examen de barra simulat amb una puntuació entre el 10% més important dels participants; GPT-3La puntuació de .5 es trobava al 10% inferior. Aquesta millora significativa en GPT-4El rendiment de 's es deu a les seves dades d'entrenament més grans i a l'arquitectura millorada. S'espera que tingui una àmplia gamma d'aplicacions en diversos camps, inclòs el processament del llenguatge natural i l'escriptura automatitzada.

 
GPT-4 mostra un rendiment a nivell humà en la majoria d'aquests exàmens professionals i acadèmics. En particular, va aprovar una versió simulada de l'examen de la barra uniforme amb una puntuació entre el 10% superior dels participants. Les capacitats del model en els exàmens semblen derivar principalment del procés de formació prèvia i no es veuen afectades significativament per RLHF. En preguntes d'opció múltiple, tant la base GPT-4 el model i el model RLHF van tenir un rendiment igual de bé de mitjana entre els desenvolupadors de l'examen provat.

La majoria dels models d'última generació (SOTA), inclosos els que poden utilitzar protocols d'entrenament addicionals o dissenys específics de referència, així com els grans models lingüístics, estan significativament superats per GPT-4.

GPT-4rendiment en termes d'estàndards acadèmics. Els desenvolupadors contrasten GPT-4 amb el millor SOTA per a un pocs tirs avaluat per LM, així com el millor SOTA amb entrenament específic de referència. Amb l'excepció de DROP, GPT-4 supera tots els LM actuals en tots els punts de referència i SOTA amb una formació específica de referència.

Internament, els desenvolupadors han estat utilitzant GPT-4, que ha tingut un impacte important en activitats com la programació, les vendes, el suport i la moderació de continguts. La segona etapa del nostre mètode d'alineació ja està en marxa, ja que els desenvolupadors l'utilitzen per ajudar els humans a revisar els resultats de la IA.

El conjunt de dades MMLU (Massive Multi-Task Language Understanding) conté preguntes d'una gamma molt àmplia de temes sobre la comprensió del llenguatge en diferents tasques (que abasten 57 dominis, incloses les matemàtiques, la biologia, el dret, les ciències socials i humanes, etc.). Hi ha quatre possibles respostes a la pregunta, una de les quals és correcta. És a dir, l'endevinació aleatòria mostra un resultat d'un 25% de respostes correctes. Vegeu la imatge següent per veure exemples de preguntes i les seves dificultats. El marcador de persona mitjana (és a dir, no és un científic, no un professor, una persona normal que es mostra com a marcatge) respon correctament al 35% de les preguntes; tanmateix, els experts poden arribar a una puntuació de +/- 90%.

Actuació de GPT-4 en diversos idiomes en comparació amb models anteriors en anglès a MMLU. GPT-4 supera el rendiment en llengua anglesa dels models lingüístics existents per a la gran majoria de les llengües examinades, incloses les llengües amb pocs recursos com el letó, el gal·lès i el suahili.
Llegir més: 5 raons per utilitzar Bing amb IA a Google

Originalment, tot el conjunt de dades estava en anglès. Però, què passa si les preguntes i respostes es tradueixen a altres idiomes, especialment als menys habituals? El model els funcionarà d'alguna manera? En aquesta prova, es va utilitzar el servei Microsoft Azure Translate per a la traducció. Les traduccions no són perfectes; en alguns casos, es perd informació important. Tanmateix, fins i tot en aquest cas, el GPT-4 funciona bé en altres idiomes. A les versions traduïdes de la MMLU, GPT-4 supera el nivell d'anglès d'altres grans models (inclòs el de Google) en 24 dels 26 idiomes examinats.

A més, GPT-4 funciona millor en llengües rares que ChatGPT va fer en anglès (ChatGPT va aconseguir una puntuació del 70.1%, mentre que la puntuació del nou model per al tailandès va ser del 71.8%). La puntuació de la prova en anglès va ser la més alta, amb GPT-4 amb un rendiment un 10% millor que altres models, inclòs el PaLM més gran de Google. Va aconseguir una puntuació del 86.4%, mentre que un grup d'experts—90%.

  • A l'estiu del 2023, la IA podria haver assolit un nou nivell de poder gràcies a ChatGPT, un chatbot que utilitza el GPT-4 algorisme i supera els resultats GPT-3 per un factor de 570. Hi contribueixen diversos elements ChatGPTL'èxit de, inclòs el seu disseny per ser més "humà" i el seu ús de la mineria de dades d'avantguarda i el processament del llenguatge natural per augmentar la seva eficàcia i precisió.
  • Microsoft i OpenAI van anunciar la seva renovació de col·laboració i els seus plans perquè la cerca de Bing adopti les capacitats de cerca millorades amb IA al gener. El molt sofisticat GPTReemplaçament del model 3.5, GPT4, s'acaba de posar en marxa, i té el potencial de millorar molt la capacitat de la cerca de Bing per comprendre consultes en llenguatge natural i oferir resultats més precisos. És una bona idea tenir un bon pla de còpia de seguretat per si alguna cosa va malament.

Llegeix més notícies relacionades:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

més articles
Damir Yalalov
Damir Yalalov

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

L'apetit institucional creix cap als ETF de Bitcoin enmig de la volatilitat

Les divulgacions a través de les presentacions 13F revelen inversors institucionals notables que s'estan incursionant en els ETF de Bitcoin, subratllant una acceptació creixent de...

saber Més

Arriba el dia de la sentència: el destí de CZ està en equilibri mentre el tribunal nord-americà considera la petició del DOJ

Changpeng Zhao està a punt d'enfrontar-se avui a la sentència en un tribunal dels Estats Units a Seattle.

saber Més
Uneix-te a la nostra comunitat tecnològica innovadora
Més...
Llegeix més
Injective uneix forces amb AltLayer per aportar seguretat de restauració a inEVM
Negocis Informe de notícies Tecnologia
Injective uneix forces amb AltLayer per aportar seguretat de restauració a inEVM
Pot 3, 2024
Masa s'uneix amb Teller per presentar el grup de préstecs MASA, que permet l'endeutament de l'USDC a la base
mercats Informe de notícies Tecnologia
Masa s'uneix amb Teller per presentar el grup de préstecs MASA, que permet l'endeutament de l'USDC a la base
Pot 3, 2024
Velodrome llança la versió beta de Superchain en les properes setmanes i s'expandeix a les cadenes de blocs de la capa 2 de la pila OP
mercats Informe de notícies Tecnologia
Velodrome llança la versió beta de Superchain en les properes setmanes i s'expandeix a les cadenes de blocs de la capa 2 de la pila OP
Pot 3, 2024
CARV anuncia associació amb Aethir per descentralitzar la seva capa de dades i distribuir recompenses
Negocis Informe de notícies Tecnologia
CARV anuncia associació amb Aethir per descentralitzar la seva capa de dades i distribuir recompenses
Pot 3, 2024
CRYPTOMERIA LABS PTE. LTD.