GPT-4 Sorpassa GPT-3.5 A tutto campo su una varietà di parametri di studio
In Breve
I GPT-4 ha raggiunto una soglia di voto superiore a quella GPT-3.5 su una varietà di parametri di riferimento.
Questo è un risultato importante in quanto dimostra che le macchine non sono solo capaci di un'intelligenza simile a quella umana, ma possono anche superarci, il che solleva interrogativi sul futuro dell'IA e sul suo potenziale impatto sul mercato del lavoro.
GPT-4 è significativamente superato dai modelli all'avanguardia (SOTA), compresi quelli che utilizzano protocolli di formazione aggiuntivi o progettazione specifica per benchmark, nonché i grandi modelli linguistici esistenti.
I GPT-4 ha ottenuto punteggi più alti del GPT-3.5 su una varietà di parametri di riferimento. Si tratta di un importante passo avanti per le macchine poiché dimostra che ora non solo possono risolvere problemi per i quali sono state originariamente progettate, ma possono anche farlo meglio degli studenti universitari.
Ci sono alcune cose da prendere in considerazione quando si osserva questo risultato. In primo luogo, il GPT-4 non è stata impartita alcuna formazione specifica per questi esami. Si è proceduto utilizzando i test più recenti disponibili al pubblico (nel caso delle Olimpiadi e delle domande a risposta libera AP) o acquistando le edizioni 2022-2023 degli esami pratici. In secondo luogo, è importante notare che GPT-4Le prestazioni di potrebbero non riflettere necessariamente le capacità dei partecipanti al test umani, poiché operano secondo una serie diversa di principi e algoritmi.
Questo è un risultato importante come mostra che le macchine non sono solo capaci di un'intelligenza simile a quella umana, ma possono anche superarci. Questo apre la strada a un futuro in cui le macchine possono svolgere compiti sempre più complessi, portandoci infine a un futuro in cui possono assisterci nella nostra vita quotidiana.
GPT-4, ad esempio, supera un esame simulato di avvocato con un punteggio compreso nel 10% dei migliori partecipanti al test; GPT-3Il punteggio di .5 rientrava nell'ultimo 10%. Questo significativo miglioramento in GPT-4Le prestazioni di sono dovute ai dati di addestramento più grandi e all'architettura migliorata. Si prevede che avrà un'ampia gamma di applicazioni in vari campi, tra cui l'elaborazione del linguaggio naturale e la scrittura automatizzata.
La maggior parte dei modelli SOTA (state-of-the-art), inclusi quelli che possono utilizzare protocolli di addestramento aggiuntivi o design specifico per benchmark, così come i grandi modelli esistenti modelli linguistici, sono significativamente sovraperformati da GPT-4.
Internamente, gli sviluppatori hanno utilizzato GPT-4, che ha avuto un impatto significativo su attività quali programmazione, vendite, supporto e moderazione dei contenuti. La seconda fase del nostro metodo di allineamento è ora in corso poiché gli sviluppatori lo utilizzano per aiutare gli esseri umani a rivedere i risultati dell’intelligenza artificiale.
Il set di dati MMLU (Massive Multi-Task Language Understanding) contiene domande da una vasta gamma di argomenti sulla comprensione del linguaggio in diversi compiti (che coprono 57 domini, tra cui matematica, biologia, diritto, scienze sociali e umane, ecc.). Ci sono quattro possibili risposte alla domanda, una delle quali è corretta. Cioè, l'ipotesi casuale mostra un risultato del 25% di risposte corrette. Vedi l'immagine qui sotto per esempi di domande e le loro difficoltà. Il marcatore persona medio (ovvero, questo non è uno scienziato, non un professore, una persona comune che illumina la luna come markup) risponde correttamente al 35% delle domande; tuttavia, gli esperti possono raggiungere un punteggio di +/- 90%.
Leggi di più: 5 motivi per utilizzare Bing basato su AI su Google |
Originariamente l'intero set di dati era in inglese. Ma cosa succederebbe se le domande e le risposte venissero tradotte in altre lingue, soprattutto in quelle meno comuni? Il modello funzionerà per loro in qualche modo? In questo test, per la traduzione è stato utilizzato il servizio Microsoft Azure Translate. Le traduzioni non sono perfette; in alcuni casi si perdono informazioni importanti. Tuttavia, anche in questo caso, l GPT-4 si comporta bene in altre lingue. Nelle versioni tradotte del MMLU, GPT-4 supera il livello inglese di altri grandi modelli (compreso quello di Google) in 24 delle 26 lingue esaminate.
Cosa c'è di più, GPT-4 ha prestazioni migliori nelle lingue rare rispetto a ChatGPT fatto in inglese (ChatGPT ha ottenuto un punteggio del 70.1%, mentre il punteggio del nuovo modello per il tailandese è stato del 71.8%). Il punteggio del test in inglese è stato il più alto, con GPT-4 con prestazioni migliori del 10% rispetto ad altri modelli, incluso il più grande PaLM di Google. Ha ottenuto un punteggio dell'86.4%, mentre un gruppo di esperti del 90%.
- Entro l'estate del 2023, l'IA potrebbe aver raggiunto un nuovo livello di potenza grazie a ChatGPT, un chatbot che utilizza il GPT-4 algoritmo e Sorpassa GPT-3 di un fattore di 570. Una varietà di elementi contribuiscono a ChatGPTil successo di , incluso il suo design per essere più "umano" e il suo utilizzo di data mining all'avanguardia e elaborazione del linguaggio naturale per aumentarne l'efficacia e l'accuratezza.
- Microsoft e OpenAI ha annunciato il rinnovo della collaborazione e prevede che la ricerca Bing adotti funzionalità di ricerca potenziate dall'intelligenza artificiale a gennaio. Il molto sofisticato GPT3.5 sostituzione del modello, GPT4, è appena stato lanciatoe ha il potenziale per migliorare notevolmente la capacità della ricerca Bing di comprendere query in linguaggio naturale e fornire risultati più accurati. È una buona idea avere un buon piano di riserva nel caso qualcosa vada storto.
Leggi altre notizie correlate:
Negazione di responsabilità
In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.
Circa l'autore
Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.
Altri articoliDamir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.