08 Agosto 2023

Alibaba presenta il modello linguistico Qwen-7B open source

Pubblicato: 08 agosto 2023 alle 10:54 Aggiornato: 11 agosto 2023 alle 10:58

Modificato e verificato: 08 agosto 2023 alle 10:54

Alibaba ha svelato il suo Large Language Model (LLM) open source denominato Qwen-7B, segnando il loro ingresso inaugurale nel regno degli LLM accessibili al pubblico. Questo modello è costruito su 7 miliardi di parametri.

Alibaba presenta il modello linguistico Qwen-7B open source

Per fare un esempio, Qwen-7B è stato addestrato utilizzando 2.2 trilioni di token. La dimensione del contesto impostata durante questa fase di training era 2048, mentre gli utenti possono estenderla fino a un massimo di 8192 durante il test. A confronto, Llama-2, un altro LLM, offre una dimensione del contesto di 4096.

I parametri di riferimento sono essenziali per valutare le prestazioni di tali modelli e, in questo ambito, gli sviluppatori cinesi affermano che Qwen-7B ha superato Llama-2. Un parametro che risalta è il benchmark di codifica Human-Eval, in cui Qwen-7B ottiene un punteggio di 24.4 rispetto a Llama-2 è 12.8. Tuttavia, è prudente considerare questi numeri con una certa cautela. Alcuni benchmark indicano che Qwen-7B supera non solo il modello base LLama-2-7B ma anche il LLaMAVariante -2-13B. Tuttavia, quando confrontato con le versioni raffinate di Llama-2, il margine di differenza si restringe. Va notato che l'esatta metodologia di allenamento di Qwen-7B non è stata esplicitamente dettagliata dai suoi sviluppatori.

In funzionalità parallela a LLaMa2-chat, Qwen ha presentato una versione incentrata sulla chat denominata Qwen-7B-Chat. Questo modello è ottimizzato per interagire con gli utenti e incorpora vari strumenti e API per migliorare la sua reattività.

Quelli con un'inclinazione verso le specifiche tecniche sarebbero interessati a sapere che le fondamenta architettoniche di Qwen-7B somigliano a LLaMA. Tuttavia, ci sono caratteristiche distinte che differenziano Qwen-7B:

Impiega l'incorporamento slegato.
Viene utilizzato l'incorporamento posizionale rotante.
I pregiudizi sono esclusi, con l'eccezione di QKV nell'attenzione.
RMSNorm è preferito rispetto a LayerNorm.
Invece del ReLU standard, è incorporato SwiGLU.
L'attenzione flash è stata introdotta per accelerare il processo di formazione.
Il modello comprende 32 strati, ha una dimensione di incorporamento di 4096 e ospita 32 teste di attenzione.

In termini di licenza, Qwen-7B è in linea con Llama-2. Consente l'uso commerciale, ma con una clausola sul volume degli utenti. Mentre Llama-2 fissa questo limite a 700 milioni di utenti attivi al mese, la soglia di Qwen-7B è di 100 milioni.

Chi desidera un approfondimento può fare riferimento alla relazione tecnica disponibile su GitHub. Inoltre, una dimostrazione di Qwen-7B, fornito in lingua cinese, è accessibile a chi è interessato a un'esplorazione pratica delle capacità del modello.

Per saperne di più sull'intelligenza artificiale:

Tag:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.

Altri articoli

Damir Jalalov

Hot Stories

L'exchange di criptovalute Bybit integra USDe di Ethena Labs come risorsa collaterale e consente coppie di trading BTC-USDe ed ETH-USDe

by Alice Davidson

07 Maggio 2024

Notizie

Orbiter Finance collabora con la rete Zulu Bitcoin Layer 2 e si distribuisce su Is Lwazi Testnet

by Alice Davidson

07 Maggio 2024

L'exchange di criptovalute Bybit integra USDe di Ethena Labs come risorsa collaterale e consente coppie di trading BTC-USDe ed ETH-USDe

by Alice Davidson

07 Maggio 2024

Il portafoglio Bitget presenta GetDrop Airdrop piattaforma e lancia il primo evento Meme Coin con un montepremi di $ 130,000

by Alice Davidson

07 Maggio 2024

La rete Meson consente ai minatori di criptovaluta di ottenere token tramite il mining. Airdrops e programmi di riacquisto stanno arrivando

by Alice Davidson

07 Maggio 2024

Cresce l’appetito istituzionale verso gli ETF Bitcoin in un contesto di volatilità

Le informazioni fornite tramite la documentazione 13F rivelano importanti investitori istituzionali che si dilettano negli ETF Bitcoin, sottolineando una crescente accettazione di...

Per saperne di più