Mercati Notizie
08 Agosto 2023

Alibaba presenta il modello linguistico Qwen-7B open source

Alibaba ha svelato il suo Large Language Model (LLM) open source denominato Qwen-7B, segnando il loro ingresso inaugurale nel regno degli LLM accessibili al pubblico. Questo modello è costruito su 7 miliardi di parametri.

Alibaba presenta il modello linguistico Qwen-7B open source

Per fare un esempio, Qwen-7B è stato addestrato utilizzando 2.2 trilioni di token. La dimensione del contesto impostata durante questa fase di training era 2048, mentre gli utenti possono estenderla fino a un massimo di 8192 durante il test. A confronto, Llama-2, un altro LLM, offre una dimensione del contesto di 4096.

I parametri di riferimento sono essenziali per valutare le prestazioni di tali modelli e, in questo ambito, gli sviluppatori cinesi affermano che Qwen-7B ha superato Llama-2. Un parametro che risalta è il benchmark di codifica Human-Eval, in cui Qwen-7B ottiene un punteggio di 24.4 rispetto a Llama-2 è 12.8. Tuttavia, è prudente considerare questi numeri con una certa cautela. Alcuni benchmark indicano che Qwen-7B supera non solo il modello base LLama-2-7B ma anche il LLaMAVariante -2-13B. Tuttavia, quando confrontato con le versioni raffinate di Llama-2, il margine di differenza si restringe. Va notato che l'esatta metodologia di allenamento di Qwen-7B non è stata esplicitamente dettagliata dai suoi sviluppatori.

In funzionalità parallela a LLaMa2-chat, Qwen ha presentato una versione incentrata sulla chat denominata Qwen-7B-Chat. Questo modello è ottimizzato per interagire con gli utenti e incorpora vari strumenti e API per migliorare la sua reattività.

Quelli con un'inclinazione verso le specifiche tecniche sarebbero interessati a sapere che le fondamenta architettoniche di Qwen-7B somigliano a LLaMA. Tuttavia, ci sono caratteristiche distinte che differenziano Qwen-7B:

  1. Impiega l'incorporamento slegato.
  2. Viene utilizzato l'incorporamento posizionale rotante.
  3. I pregiudizi sono esclusi, con l'eccezione di QKV nell'attenzione.
  4. RMSNorm è preferito rispetto a LayerNorm.
  5. Invece del ReLU standard, è incorporato SwiGLU.
  6. L'attenzione flash è stata introdotta per accelerare il processo di formazione.
  7. Il modello comprende 32 strati, ha una dimensione di incorporamento di 4096 e ospita 32 teste di attenzione.

In termini di licenza, Qwen-7B è in linea con Llama-2. Consente l'uso commerciale, ma con una clausola sul volume degli utenti. Mentre Llama-2 fissa questo limite a 700 milioni di utenti attivi al mese, la soglia di Qwen-7B è di 100 milioni.

Chi desidera un approfondimento può fare riferimento alla relazione tecnica disponibile su GitHub. Inoltre, una dimostrazione di Qwen-7B, fornito in lingua cinese, è accessibile a chi è interessato a un'esplorazione pratica delle capacità del modello.

Per saperne di più sull'intelligenza artificiale:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Cresce l’appetito istituzionale verso gli ETF Bitcoin in un contesto di volatilità

Le informazioni fornite tramite la documentazione 13F rivelano importanti investitori istituzionali che si dilettano negli ETF Bitcoin, sottolineando una crescente accettazione di...

Per saperne di più

Arriva il giorno della sentenza: il destino di CZ è in bilico mentre la Corte degli Stati Uniti considera l'appello del Dipartimento di Giustizia

Changpeng Zhao è pronto ad affrontare oggi la sentenza in un tribunale americano a Seattle.

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
Inside Wall Street Memes (WSM): svelare i titoli dei giornali
Affari Mercati Storie e recensioni Tecnologia
Inside Wall Street Memes (WSM): svelare i titoli dei giornali
7 Maggio 2024
Scopri le Crypto Whales: chi è chi nel mercato
Affari Mercati Storie e recensioni Tecnologia
Scopri le Crypto Whales: chi è chi nel mercato
7 Maggio 2024
Orbiter Finance collabora con la rete Zulu Bitcoin Layer 2 e si distribuisce su Is Lwazi Testnet
Affari Notizie Tecnologia
Orbiter Finance collabora con la rete Zulu Bitcoin Layer 2 e si distribuisce su Is Lwazi Testnet 
7 Maggio 2024
L'exchange di criptovalute Bybit integra USDe di Ethena Labs come risorsa collaterale e consente coppie di trading BTC-USDe ed ETH-USDe
Mercati Notizie Tecnologia
L'exchange di criptovalute Bybit integra USDe di Ethena Labs come risorsa collaterale e consente coppie di trading BTC-USDe ed ETH-USDe
7 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.