08. August 2023

Alibaba stellt das Open-Source-Sprachmodell Qwen-7B vor

Veröffentlicht: 08. August 2023 um 10:54 Uhr. Aktualisiert: 11. August 2023 um 10:58 Uhr

Bearbeitet und faktengeprüft: 08. August 2023 um 10:54 Uhr

Alibaba hat sein Open-Source-Large-Language-Model (LLM) mit dem Namen vorgestellt Qwen-7B, was ihren ersten Einstieg in den Bereich der öffentlich zugänglichen LLMs markiert. Dieses Modell basiert auf 7 Milliarden Parametern.

Alibaba stellt das Open-Source-Sprachmodell Qwen-7B vor

Zum Vergleich: Qwen-7B wurde mit 2.2 Billionen Token trainiert. Die während dieser Trainingsphase festgelegte Kontextgröße betrug 2048, während Benutzer diese während des Tests auf maximal 8192 erweitern können. Im Vergleich, Llama-2, ein weiteres LLM, bietet eine Kontextgröße von 4096.

Benchmarks sind unerlässlich, um die Leistung solcher Modelle zu messen, und in diesem Bereich behaupten die chinesischen Entwickler, dass Qwen-7B übertroffen hat Llama-2. Eine herausragende Kennzahl ist der Human-Eval-Coding-Benchmark, bei dem Qwen-7B 24.4 Punkte erzielt Llama-2's 12.8. Es ist jedoch ratsam, diese Zahlen mit einer gewissen Vorsicht zu betrachten. Einige Benchmarks deuten darauf hin, dass der Qwen-7B nicht nur das Basismodell übertrifft LLama-2-7B aber auch die LLaMA-2-13B Variante. Im Vergleich zu den verfeinerten Versionen von Llama-2, der Differenzspielraum wird kleiner. Es ist zu beachten, dass die genaue Trainingsmethodik von Qwen-7B von den Entwicklern nicht explizit beschrieben wurde.

In der Funktionalität parallel zu LLaMa2-Chat hat Qwen eine Chat-zentrierte Version namens Qwen-7B-Chat vorgestellt. Dieses Modell ist für die Interaktion mit Benutzern optimiert und umfasst verschiedene Tools und APIs um seine Reaktionsfähigkeit zu verbessern.

Diejenigen, die eine Vorliebe für technische Besonderheiten haben, wären daran interessiert zu erfahren, ob das architektonische Fundament von Qwen-7B Ähnlichkeit mit diesem aufweist LLaMA. Es gibt jedoch bestimmte Merkmale, die Qwen-7B von anderen unterscheiden:

Es verwendet eine ungebundene Einbettung.
Es wird eine rotierende Positionseinbettung verwendet.
Verzerrungen sind ausgeschlossen, mit Ausnahme von QKV in der Aufmerksamkeit.
RMSNorm wird gegenüber LayerNorm bevorzugt.
Anstelle des Standard-ReLU ist SwiGLU integriert.
Um den Schulungsprozess zu beschleunigen, wurde Flash-Aufmerksamkeit eingeführt.
Das Modell besteht aus 32 Schichten, hat ein Einbettungsmaß von 4096 und bietet Platz für 32 Aufmerksamkeitsköpfe.

In Bezug auf die Lizenzierung stimmt Qwen-7B mit überein Llama-2. Es erlaubt die kommerzielle Nutzung, allerdings mit einer Auflage zum Nutzervolumen. Während Llama-2 legt diese Obergrenze auf 700 Millionen aktive Benutzer pro Monat fest, der Schwellenwert von Qwen-7B liegt bei 100 Millionen.

Wer eine eingehendere Untersuchung wünscht, kann sich auf den technischen Bericht beziehen, der auf GitHub verfügbar ist. Zusätzlich, eine Demonstration von Qwen-7BDas in chinesischer Sprache bereitgestellte Handbuch ist für diejenigen zugänglich, die an einer praktischen Erkundung der Fähigkeiten des Modells interessiert sind.

Lesen Sie mehr über KI:

Stichworte:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.

Espresso Systems arbeitet mit Polygon Labs zusammen, um AggLayer zur Verbesserung der Rollup-Interoperabilität zu entwickeln

by Alisa Davidson

09. Mai 2024

Aktuelles

Espresso Systems arbeitet mit Polygon Labs zusammen, um AggLayer zur Verbesserung der Rollup-Interoperabilität zu entwickeln

by Alisa Davidson

09. Mai 2024

ZKP-gestütztes Infrastrukturprotokoll ZKBase stellt Roadmap vor und plant Testnet-Start im Mai

by Alisa Davidson

09. Mai 2024

NuLink startet auf Bybit Web3 IDO-Plattform. Abonnementphase verlängert sich bis zum 13. Mai

by Alisa Davidson

09. Mai 2024

UXLINK und Binance arbeiten an einer neuen Kampagne zusammen und bieten Benutzern 20 Millionen UXUY-Punkte und Airdrop Belohnung

by Alisa Davidson

09. Mai 2024

Angesichts der Volatilität wächst der institutionelle Appetit auf Bitcoin-ETFs

Offenlegungen in 13F-Anmeldungen zeigen, dass namhafte institutionelle Anleger sich mit Bitcoin-ETFs beschäftigen, was die wachsende Akzeptanz von ... unterstreicht.

Weitere Informationen