GPT-4 Superiors GPT-3.5 A nivell general sobre una varietat de punts de referència d'estudi
En breu
El GPT-4 ha assolit un llindar de qualificació més alt que el GPT-3.5 en una varietat de punts de referència.
Aquest és un assoliment important, ja que demostra que les màquines no només són capaços d'intel·ligència humana, sinó que també ens poden superar, la qual cosa planteja preguntes sobre el futur de la IA i el seu impacte potencial en el mercat laboral.
GPT-4 té un rendiment significativament superior als models d'última generació (SOTA), inclosos els que utilitzen protocols d'entrenament addicionals o dissenys específics de referència, així com els grans models lingüístics existents.
El GPT-4 ha aconseguit puntuacions més altes que la GPT-3.5 en una varietat de punts de referència. Aquest és un gran avenç per a les màquines, ja que demostra que ara no només poden resoldre problemes per als quals es van dissenyar originalment, sinó que també ho poden fer millor que els estudiants universitaris.
Hi ha algunes coses a tenir en compte a l'hora de mirar aquest resultat. En primer lloc, el GPT-4 no va rebre cap formació específica per a aquests exàmens. Va procedir utilitzant les proves més recents disponibles públicament (en el cas de les Olimpíades i les preguntes de resposta gratuïta AP) o comprant les edicions 2022-2023 dels exàmens de pràctica. En segon lloc, és important tenir en compte que el GPT-4El rendiment de 's pot no reflectir necessàriament les habilitats dels examinadors humans, ja que funciona amb un conjunt diferent de principis i algorismes.
Aquest és un gran assoliment com mostra que les màquines no només són capaços d'una intel·ligència humana, sinó que també ens poden superar. Això obre el camí cap a un futur on les màquines puguin assumir tasques cada cop més complexes, i en última instància condueix a un futur en què ens puguin ajudar en la nostra vida quotidiana.
GPT-4, per exemple, aprova un examen de barra simulat amb una puntuació entre el 10% més important dels participants; GPT-3La puntuació de .5 es trobava al 10% inferior. Aquesta millora significativa en GPT-4El rendiment de 's es deu a les seves dades d'entrenament més grans i a l'arquitectura millorada. S'espera que tingui una àmplia gamma d'aplicacions en diversos camps, inclòs el processament del llenguatge natural i l'escriptura automatitzada.
La majoria dels models d'última generació (SOTA), inclosos els que poden utilitzar protocols d'entrenament addicionals o dissenys específics de referència, així com els grans models lingüístics, estan significativament superats per GPT-4.
Internament, els desenvolupadors han estat utilitzant GPT-4, que ha tingut un impacte important en activitats com la programació, les vendes, el suport i la moderació de continguts. La segona etapa del nostre mètode d'alineació ja està en marxa, ja que els desenvolupadors l'utilitzen per ajudar els humans a revisar els resultats de la IA.
El conjunt de dades MMLU (Massive Multi-Task Language Understanding) conté preguntes d'una gamma molt àmplia de temes sobre la comprensió del llenguatge en diferents tasques (que abasten 57 dominis, incloses les matemàtiques, la biologia, el dret, les ciències socials i humanes, etc.). Hi ha quatre possibles respostes a la pregunta, una de les quals és correcta. És a dir, l'endevinació aleatòria mostra un resultat d'un 25% de respostes correctes. Vegeu la imatge següent per veure exemples de preguntes i les seves dificultats. El marcador de persona mitjana (és a dir, no és un científic, no un professor, una persona normal que es mostra com a marcatge) respon correctament al 35% de les preguntes; tanmateix, els experts poden arribar a una puntuació de +/- 90%.
Llegir més: 5 raons per utilitzar Bing amb IA a Google |
Originalment, tot el conjunt de dades estava en anglès. Però, què passa si les preguntes i respostes es tradueixen a altres idiomes, especialment als menys habituals? El model els funcionarà d'alguna manera? En aquesta prova, es va utilitzar el servei Microsoft Azure Translate per a la traducció. Les traduccions no són perfectes; en alguns casos, es perd informació important. Tanmateix, fins i tot en aquest cas, el GPT-4 funciona bé en altres idiomes. A les versions traduïdes de la MMLU, GPT-4 supera el nivell d'anglès d'altres grans models (inclòs el de Google) en 24 dels 26 idiomes examinats.
A més, GPT-4 funciona millor en llengües rares que ChatGPT va fer en anglès (ChatGPT va aconseguir una puntuació del 70.1%, mentre que la puntuació del nou model per al tailandès va ser del 71.8%). La puntuació de la prova en anglès va ser la més alta, amb GPT-4 amb un rendiment un 10% millor que altres models, inclòs el PaLM més gran de Google. Va aconseguir una puntuació del 86.4%, mentre que un grup d'experts—90%.
- A l'estiu del 2023, la IA podria haver assolit un nou nivell de poder gràcies a ChatGPT, un chatbot que utilitza el GPT-4 algorisme i supera els resultats GPT-3 per un factor de 570. Hi contribueixen diversos elements ChatGPTL'èxit de, inclòs el seu disseny per ser més "humà" i el seu ús de la mineria de dades d'avantguarda i el processament del llenguatge natural per augmentar la seva eficàcia i precisió.
- Microsoft i OpenAI van anunciar la seva renovació de col·laboració i els seus plans perquè la cerca de Bing adopti les capacitats de cerca millorades amb IA al gener. El molt sofisticat GPTReemplaçament del model 3.5, GPT4, s'acaba de posar en marxa, i té el potencial de millorar molt la capacitat de la cerca de Bing per comprendre consultes en llenguatge natural i oferir resultats més precisos. És una bona idea tenir un bon pla de còpia de seguretat per si alguna cosa va malament.
Llegeix més notícies relacionades:
renúncia
En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.
About The Autor
Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.
més articlesDamir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.