Notizie Tecnologia
15 Marzo 2023

GPT-4 Sorpassa GPT-3.5 A tutto campo su una varietà di parametri di studio

In Breve

I GPT-4 ha raggiunto una soglia di voto superiore a quella GPT-3.5 su una varietà di parametri di riferimento.

Questo è un risultato importante in quanto dimostra che le macchine non sono solo capaci di un'intelligenza simile a quella umana, ma possono anche superarci, il che solleva interrogativi sul futuro dell'IA e sul suo potenziale impatto sul mercato del lavoro.

GPT-4 è significativamente superato dai modelli all'avanguardia (SOTA), compresi quelli che utilizzano protocolli di formazione aggiuntivi o progettazione specifica per benchmark, nonché i grandi modelli linguistici esistenti.

I GPT-4 ha ottenuto punteggi più alti del GPT-3.5 su una varietà di parametri di riferimento. Si tratta di un importante passo avanti per le macchine poiché dimostra che ora non solo possono risolvere problemi per i quali sono state originariamente progettate, ma possono anche farlo meglio degli studenti universitari.

GPT-4 Sorpassa GPT-3.5 su tutta la linea su una varietà di parametri di studio

Ci sono alcune cose da prendere in considerazione quando si osserva questo risultato. In primo luogo, il GPT-4 non è stata impartita alcuna formazione specifica per questi esami. Si è proceduto utilizzando i test più recenti disponibili al pubblico (nel caso delle Olimpiadi e delle domande a risposta libera AP) o acquistando le edizioni 2022-2023 degli esami pratici. In secondo luogo, è importante notare che GPT-4Le prestazioni di potrebbero non riflettere necessariamente le capacità dei partecipanti al test umani, poiché operano secondo una serie diversa di principi e algoritmi.

Questo è un risultato importante come mostra che le macchine non sono solo capaci di un'intelligenza simile a quella umana, ma possono anche superarci. Questo apre la strada a un futuro in cui le macchine possono svolgere compiti sempre più complessi, portandoci infine a un futuro in cui possono assisterci nella nostra vita quotidiana.

I GPT-4La capacità di superare gli esseri umani in determinati compiti solleva interrogativi sul futuro di intelligenza artificiale e il suo potenziale impatto sul mercato del lavoro. Sottolinea inoltre la necessità di proseguire la ricerca e lo sviluppo in questo campo per garantire che l'IA sia utilizzata in modo etico e responsabile.
Leggi di più: 5+ modelli di intelligenza artificiale text-to-image più attesi del 2023

GPT-4, ad esempio, supera un esame simulato di avvocato con un punteggio compreso nel 10% dei migliori partecipanti al test; GPT-3Il punteggio di .5 rientrava nell'ultimo 10%. Questo significativo miglioramento in GPT-4Le prestazioni di sono dovute ai dati di addestramento più grandi e all'architettura migliorata. Si prevede che avrà un'ampia gamma di applicazioni in vari campi, tra cui l'elaborazione del linguaggio naturale e la scrittura automatizzata.

 
GPT-4 mostra prestazioni di livello umano nella maggior parte di questi esami professionali e accademici. In particolare, ha superato una versione simulata dell'Uniform Bar Examination con un punteggio compreso nel 10% dei migliori partecipanti al test. Le capacità del modello negli esami sembrano derivare principalmente dal processo di pre-formazione e non sono influenzate in modo significativo dall'RLHF. Sulle domande a scelta multipla, sia la base GPT-4 Il modello e il modello RLHF hanno funzionato in media altrettanto bene tra gli sviluppatori dell'esame testato.

La maggior parte dei modelli SOTA (state-of-the-art), inclusi quelli che possono utilizzare protocolli di addestramento aggiuntivi o design specifico per benchmark, così come i grandi modelli esistenti modelli linguistici, sono significativamente sovraperformati da GPT-4.

GPT-4in termini di standard accademici. Contrasto degli sviluppatori GPT-4 con il miglior SOTA per un tiro a due colpi valutato LM nonché il miglior SOTA con addestramento specifico per benchmark. Ad eccezione di DROP, GPT-4 supera tutti gli attuali LM su tutti i benchmark e SOTA con una formazione specifica per benchmark.

Internamente, gli sviluppatori hanno utilizzato GPT-4, che ha avuto un impatto significativo su attività quali programmazione, vendite, supporto e moderazione dei contenuti. La seconda fase del nostro metodo di allineamento è ora in corso poiché gli sviluppatori lo utilizzano per aiutare gli esseri umani a rivedere i risultati dell’intelligenza artificiale.

Il set di dati MMLU (Massive Multi-Task Language Understanding) contiene domande da una vasta gamma di argomenti sulla comprensione del linguaggio in diversi compiti (che coprono 57 domini, tra cui matematica, biologia, diritto, scienze sociali e umane, ecc.). Ci sono quattro possibili risposte alla domanda, una delle quali è corretta. Cioè, l'ipotesi casuale mostra un risultato del 25% di risposte corrette. Vedi l'immagine qui sotto per esempi di domande e le loro difficoltà. Il marcatore persona medio (ovvero, questo non è uno scienziato, non un professore, una persona comune che illumina la luna come markup) risponde correttamente al 35% delle domande; tuttavia, gli esperti possono raggiungere un punteggio di +/- 90%.

Performance di GPT-4 in una gamma di lingue rispetto ai modelli precedenti in inglese su MMLU. GPT-4 supera le prestazioni in lingua inglese dei modelli linguistici esistenti per la grande maggioranza delle lingue esaminate, comprese le lingue a scarse risorse come il lettone, il gallese e lo swahili.
Leggi di più: 5 motivi per utilizzare Bing basato su AI su Google

Originariamente l'intero set di dati era in inglese. Ma cosa succederebbe se le domande e le risposte venissero tradotte in altre lingue, soprattutto in quelle meno comuni? Il modello funzionerà per loro in qualche modo? In questo test, per la traduzione è stato utilizzato il servizio Microsoft Azure Translate. Le traduzioni non sono perfette; in alcuni casi si perdono informazioni importanti. Tuttavia, anche in questo caso, l GPT-4 si comporta bene in altre lingue. Nelle versioni tradotte del MMLU, GPT-4 supera il livello inglese di altri grandi modelli (compreso quello di Google) in 24 delle 26 lingue esaminate.

Cosa c'è di più, GPT-4 ha prestazioni migliori nelle lingue rare rispetto a ChatGPT fatto in inglese (ChatGPT ha ottenuto un punteggio del 70.1%, mentre il punteggio del nuovo modello per il tailandese è stato del 71.8%). Il punteggio del test in inglese è stato il più alto, con GPT-4 con prestazioni migliori del 10% rispetto ad altri modelli, incluso il più grande PaLM di Google. Ha ottenuto un punteggio dell'86.4%, mentre un gruppo di esperti del 90%.

  • Entro l'estate del 2023, l'IA potrebbe aver raggiunto un nuovo livello di potenza grazie a ChatGPT, un chatbot che utilizza il GPT-4 algoritmo e Sorpassa GPT-3 di un fattore di 570. Una varietà di elementi contribuiscono a ChatGPTil successo di , incluso il suo design per essere più "umano" e il suo utilizzo di data mining all'avanguardia e elaborazione del linguaggio naturale per aumentarne l'efficacia e l'accuratezza.
  • Microsoft e OpenAI ha annunciato il rinnovo della collaborazione e prevede che la ricerca Bing adotti funzionalità di ricerca potenziate dall'intelligenza artificiale a gennaio. Il molto sofisticato GPT3.5 sostituzione del modello, GPT4, è appena stato lanciatoe ha il potenziale per migliorare notevolmente la capacità della ricerca Bing di comprendere query in linguaggio naturale e fornire risultati più accurati. È una buona idea avere un buon piano di riserva nel caso qualcosa vada storto.

Leggi altre notizie correlate:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Cresce l’appetito istituzionale verso gli ETF Bitcoin in un contesto di volatilità

Le informazioni fornite tramite la documentazione 13F rivelano importanti investitori istituzionali che si dilettano negli ETF Bitcoin, sottolineando una crescente accettazione di...

Per saperne di più

Arriva il giorno della sentenza: il destino di CZ è in bilico mentre la Corte degli Stati Uniti considera l'appello del Dipartimento di Giustizia

Changpeng Zhao è pronto ad affrontare oggi la sentenza in un tribunale americano a Seattle.

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
Injective unisce le forze con AltLayer per portare la sicurezza del ripristino in inEVM
Affari Notizie Tecnologia
Injective unisce le forze con AltLayer per portare la sicurezza del ripristino in inEVM
3 Maggio 2024
Masa collabora con Teller per presentare il pool di prestiti MASA e consentire il prestito su base USDC
Mercati Notizie Tecnologia
Masa collabora con Teller per presentare il pool di prestiti MASA e consentire il prestito su base USDC
3 Maggio 2024
Velodrome lancia la versione beta di Superchain nelle prossime settimane e si espande su blockchain OP Stack Layer 2
Mercati Notizie Tecnologia
Velodrome lancia la versione beta di Superchain nelle prossime settimane e si espande su blockchain OP Stack Layer 2
3 Maggio 2024
CARV annuncia una partnership con Aethir per decentralizzare il proprio livello dati e distribuire premi
Affari Notizie Tecnologia
CARV annuncia una partnership con Aethir per decentralizzare il proprio livello dati e distribuire premi
3 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.