Nachrichtenbericht Technologie
12. September 2023

FLM-101B: Ein äußerst kostengünstiges Sprachmodell im 101B-Maßstab konkurriert mit führenden KI-Modellen

In Kürze

Das chinesische LLM, LM-101B, kann mit einem Budget von 100 US-Dollar trainiert werden und erreicht eine Leistung, die mit bekannten Modellen wie vergleichbar ist GPT-3 und GLM-130B.

Chinesische Forscher haben ein neues LLM vorgestellt, das FLM-101B, ein reines Decoder-LLM mit bemerkenswerten 101 Milliarden Parametern. Diese Entwicklung bietet eine kostengünstige Alternative sowohl für Forschung als auch für praktische Anwendungen.

FLM-101B: Ein äußerst kostengünstiges Sprachmodell im 101B-Maßstab konkurriert mit führenden KI-Modellen
Related: Die Schulungskosten für KI-Modelle werden voraussichtlich bis 100 von 500 Millionen US-Dollar auf 2030 Millionen US-Dollar steigen

Was den FLM-101B auszeichnet, ist seine außergewöhnliche Leistung, die mit einem relativ bescheidenen Budget erzielt wird. Während es allgemein bekannt ist, dass das Training von LLMs von Grund auf astronomische Investitionen erfordern kann, haben die Entwickler von FLM-101B gezeigt, dass es möglich ist, ein Modell mit 101 Milliarden Parametern mit einem Budget von nur 100 US-Dollar zu trainieren.

Die experimentellen Ergebnisse sind einfach beeindruckend. FLM-101B hat ein Leistungsniveau gezeigt, das mit etablierten und ressourcenintensiven vergleichbar ist Modelle wie GPT-3 und GLM-130B. Dieser Vergleich verdeutlicht das enorme Potenzial dieses kostengünstigen Modells, insbesondere bei IQ-Benchmarks mit komplexen Kontexten, die in den Trainingsdaten nicht vorhanden sind.

Um ihr Engagement für die Weiterentwicklung der KI-Forschung und -Entwicklung zu unterstreichen, haben die Entwickler von FLM-101B dieses Modell als Open-Source-Version bereitgestellt. Forscher und Entwickler auf der ganzen Welt können jetzt auf dieses LLM im 101B-Maßstab zugreifen und es für verschiedene Anwendungen nutzen, die sowohl die chinesische als auch die englische Sprache umfassen.

Das FLM-101B-Modell verwendet einen einzigartigen Trainingsansatz. In der Anfangsphase des Trainings sammelt es schnell Wissen aus einem kleineren Modell mit 16 Milliarden Parametern und skaliert es schrittweise auf bis zu 101 Milliarden Parameter. Dieser inkrementelle Ansatz reduziert die Schulungskosten erheblich und macht ihn für ein breiteres Spektrum von Projekten finanziell realisierbar.

Ein herausragendes Merkmal von FLM-101B ist die Unterstützung einer effizienten Fenstergrößenerweiterung während der Inferenz. Dies wird durch die Einbettung der xPos-Rotationsposition erreicht, wodurch das Modell einen breiteren Kontext verarbeiten kann und seine Anpassungsfähigkeit und Benutzerfreundlichkeit verbessert wird.

FLM-101B wurde in weniger als 24 Tagen auf einem Cluster von 800 DGX-A26-GPU-Servern trainiert. Diese beeindruckende Leistung unterstreicht die Skalierbarkeit und effiziente Ressourcennutzung des Modells. Die von Megatron-LM adaptierte Trainingscodebasis des Modells wird bald als Open Source verfügbar sein und wertvolle Erkenntnisse für die KI-Community liefern.

Die Ersteller von FLM-101B erkennen mögliche Einschränkungen an, einschließlich der Gefährdung des Modells durch unsichere Beispiele im Trainingskorpus aufgrund der Offenheit des Datensatzes. Dieser Vorbehalt erinnert an die Bedeutung einer verantwortungsvollen KI-Nutzung inhaltliche Moderation.

Während FLM-101B bemerkenswerte Ergebnisse erzielt hat, erkennen die Entwickler Bereiche mit Verbesserungspotenzial an. Der Inferenzprozess des Modells ist zwar leistungsstark, aber noch nicht vollständig optimiert, was zu einem höheren Ressourcenverbrauch und einer verringerten Geschwindigkeit führt. Es gibt jedoch Pläne, Flash Attention in Inferenz einzuführen, um diese Einschränkung zu beheben.

Lesen Sie mehr über KI:

Stichworte:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Weitere Artikel
Damir Jalalow
Damir Jalalow

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Hot Stories

Revoluts Revolut

by Viktoriia Palchik
08. Mai 2024
Abonnieren Sie unseren Newsletter.
Aktuelles

Neue Meme-Coins vom Mai 2024: 7 Tipps für Krypto-Fans

by Viktoriia Palchik
08. Mai 2024

Angesichts der Volatilität wächst der institutionelle Appetit auf Bitcoin-ETFs

Offenlegungen in 13F-Anmeldungen zeigen, dass namhafte institutionelle Anleger sich mit Bitcoin-ETFs beschäftigen, was die wachsende Akzeptanz von ... unterstreicht.

Weitere Informationen

Der Tag der Verurteilung steht vor der Tür: Das Schicksal von CZ bleibt ungewiss, während das US-Gericht den Plädoyer des DOJ prüft

Changpeng Zhao steht heute vor einer Verurteilung vor einem US-Gericht in Seattle.

Weitere Informationen
Treten Sie unserer innovativen Tech-Community bei
Weiterlesen
Lesen Sie weiter
Nexo startet „The Hunt“, um Benutzer mit NEXO-Tokens im Wert von 12 Millionen US-Dollar für die Interaktion mit seinem Ökosystem zu belohnen
Märkte Nachrichtenbericht Technologie
Nexo startet „The Hunt“, um Benutzer mit NEXO-Tokens im Wert von 12 Millionen US-Dollar für die Interaktion mit seinem Ökosystem zu belohnen
8. Mai 2024
Revoluts Revolut
Märkte Software Geschichten und Rezensionen Technologie
Revoluts Revolut
8. Mai 2024
Die Krypto-Handelsplattform BitMEX führt den Optionshandel ohne Gebühren und Bargeldanreize ein
Geschäft Märkte Nachrichtenbericht
Die Krypto-Handelsplattform BitMEX führt den Optionshandel ohne Gebühren und Bargeldanreize ein
8. Mai 2024
Lisk stellt offiziell auf Ethereum Layer 2 um und stellt Core v4.0.6 vor
Nachrichtenbericht Technologie
Lisk stellt offiziell auf Ethereum Layer 2 um und stellt Core v4.0.6 vor
8. Mai 2024