12. September 2023

FLM-101B: Ein äußerst kostengünstiges Sprachmodell im 101B-Maßstab konkurriert mit führenden KI-Modellen

Veröffentlicht: 12. September 2023 um 8:41 Uhr. Aktualisiert: 12. September 2023 um 9:12 Uhr

Bearbeitet und faktengeprüft: 12. September 2023 um 8:41 Uhr

In Kürze

Das chinesische LLM, LM-101B, kann mit einem Budget von 100 US-Dollar trainiert werden und erreicht eine Leistung, die mit bekannten Modellen wie vergleichbar ist GPT-3 und GLM-130B.

Chinesische Forscher haben ein neues LLM vorgestellt, das FLM-101B, ein reines Decoder-LLM mit bemerkenswerten 101 Milliarden Parametern. Diese Entwicklung bietet eine kostengünstige Alternative sowohl für Forschung als auch für praktische Anwendungen.

FLM-101B: Ein äußerst kostengünstiges Sprachmodell im 101B-Maßstab konkurriert mit führenden KI-Modellen

Was den FLM-101B auszeichnet, ist seine außergewöhnliche Leistung, die mit einem relativ bescheidenen Budget erzielt wird. Während es allgemein bekannt ist, dass das Training von LLMs von Grund auf astronomische Investitionen erfordern kann, haben die Entwickler von FLM-101B gezeigt, dass es möglich ist, ein Modell mit 101 Milliarden Parametern mit einem Budget von nur 100 US-Dollar zu trainieren.

Die experimentellen Ergebnisse sind einfach beeindruckend. FLM-101B hat ein Leistungsniveau gezeigt, das mit etablierten und ressourcenintensiven vergleichbar ist Modelle wie GPT-3 und GLM-130B. Dieser Vergleich verdeutlicht das enorme Potenzial dieses kostengünstigen Modells, insbesondere bei IQ-Benchmarks mit komplexen Kontexten, die in den Trainingsdaten nicht vorhanden sind.

Um ihr Engagement für die Weiterentwicklung der KI-Forschung und -Entwicklung zu unterstreichen, haben die Entwickler von FLM-101B dieses Modell als Open-Source-Version bereitgestellt. Forscher und Entwickler auf der ganzen Welt können jetzt auf dieses LLM im 101B-Maßstab zugreifen und es für verschiedene Anwendungen nutzen, die sowohl die chinesische als auch die englische Sprache umfassen.

Das FLM-101B-Modell verwendet einen einzigartigen Trainingsansatz. In der Anfangsphase des Trainings sammelt es schnell Wissen aus einem kleineren Modell mit 16 Milliarden Parametern und skaliert es schrittweise auf bis zu 101 Milliarden Parameter. Dieser inkrementelle Ansatz reduziert die Schulungskosten erheblich und macht ihn für ein breiteres Spektrum von Projekten finanziell realisierbar.

Ein herausragendes Merkmal von FLM-101B ist die Unterstützung einer effizienten Fenstergrößenerweiterung während der Inferenz. Dies wird durch die Einbettung der xPos-Rotationsposition erreicht, wodurch das Modell einen breiteren Kontext verarbeiten kann und seine Anpassungsfähigkeit und Benutzerfreundlichkeit verbessert wird.

FLM-101B wurde in weniger als 24 Tagen auf einem Cluster von 800 DGX-A26-GPU-Servern trainiert. Diese beeindruckende Leistung unterstreicht die Skalierbarkeit und effiziente Ressourcennutzung des Modells. Die von Megatron-LM adaptierte Trainingscodebasis des Modells wird bald als Open Source verfügbar sein und wertvolle Erkenntnisse für die KI-Community liefern.

Die Ersteller von FLM-101B erkennen mögliche Einschränkungen an, einschließlich der Gefährdung des Modells durch unsichere Beispiele im Trainingskorpus aufgrund der Offenheit des Datensatzes. Dieser Vorbehalt erinnert an die Bedeutung einer verantwortungsvollen KI-Nutzung inhaltliche Moderation.

Während FLM-101B bemerkenswerte Ergebnisse erzielt hat, erkennen die Entwickler Bereiche mit Verbesserungspotenzial an. Der Inferenzprozess des Modells ist zwar leistungsstark, aber noch nicht vollständig optimiert, was zu einem höheren Ressourcenverbrauch und einer verringerten Geschwindigkeit führt. Es gibt jedoch Pläne, Flash Attention in Inferenz einzuführen, um diese Einschränkung zu beheben.

Lesen Sie mehr über KI:

Stichworte:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.