FLM-101B: een superkosteneffectief taalmodel op 101B-schaal concurreert met toonaangevende AI-modellen
In het kort
De Chinese LLM, LM-101B, kan worden getraind met een budget van $ 100, waarbij prestaties worden behaald die vergelijkbaar zijn met bekende modellen zoals GPT-3 en GLM-130B.
Chinese onderzoekers hebben een nieuwe LLM onthuld, de FLM-101B, een LLM met alleen een decoder en een opmerkelijke 101 miljard parameters. Deze ontwikkeling biedt een kosteneffectief alternatief voor zowel onderzoek als praktische toepassingen.
Wat de FLM-101B doet opvallen, zijn de uitzonderlijke prestaties die worden bereikt met een relatief bescheiden budget. Hoewel het bekend is dat het helemaal opnieuw trainen van LLM's astronomische investeringen kan vergen, hebben de makers van FLM-101B aangetoond dat het mogelijk is om een model met 101 miljard parameters te trainen met slechts een budget van $ 100.
De experimentele resultaten zijn ronduit indrukwekkend. FLM-101B heeft prestatieniveaus aangetoond die vergelijkbaar zijn met gevestigde en resource-intensieve modellen zoals GPT-3 en GLM-130B. Deze vergelijking benadrukt het enorme potentieel van dit kosteneffectieve model, vooral op IQ-benchmarks met complexe contexten die niet aanwezig zijn in de trainingsgegevens.
In een stap die hun toewijding aan het bevorderen van AI-onderzoek en -ontwikkeling onderstreept, hebben de makers van FLM-101B dit model open-source gemaakt. Onderzoekers en ontwikkelaars over de hele wereld hebben nu toegang tot deze LLM op 101B-schaal en kunnen deze gebruiken voor verschillende toepassingen, zowel in de Chinese als in de Engelse taal.
Het FLM-101B-model maakt gebruik van een unieke trainingsaanpak. Het verzamelt snel kennis uit een kleiner model met 16 miljard parameters in de beginfase van de training en schaalt geleidelijk op naar 101 miljard parameters. Deze stapsgewijze aanpak verlaagt de trainingskosten aanzienlijk, waardoor het financieel haalbaar wordt voor een breder scala aan projecten.
Een opvallend kenmerk van de FLM-101B is de ondersteuning voor efficiënte uitbreiding van de venstergrootte tijdens inferentie. Dit wordt bereikt door het gebruik van xPos-inbedding van roterende posities, waardoor het model een bredere context kan hanteren, waardoor de aanpasbaarheid en bruikbaarheid worden vergroot.
FLM-101B werd in minder dan 24 dagen getraind op een cluster van 800 DGX-A26 GPU-servers. Deze indrukwekkende prestatie onderstreept de schaalbaarheid van het model en het efficiënte gebruik van hulpbronnen. De trainingscodebase van het model, aangepast van Megatron-LM, zal binnenkort beschikbaar zijn als open-source, wat waardevolle inzichten oplevert voor de AI-gemeenschap.
De makers van FLM-101B erkennen mogelijke beperkingen, waaronder de blootstelling van het model aan onveilige voorbeelden in het trainingscorpus vanwege het open karakter van de dataset. Dit voorbehoud herinnert ons aan het belang van verantwoord AI-gebruik inhoud modereren.
Hoewel de FLM-101B opmerkelijke resultaten heeft geboekt, erkennen de makers ook dat er verbeterpunten zijn. Het gevolgtrekkingsproces van het model is weliswaar krachtig, maar is nog niet volledig geoptimaliseerd, wat leidt tot een hoger gebruik van hulpbronnen en een lagere snelheid. Er zijn echter plannen in de maak om Flash-aandacht te introduceren bij gevolgtrekkingen, waarmee deze beperking wordt aangepakt.
Lees meer over AI:
Disclaimer
In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.
Over de auteur
Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.
Meer artikelenDamir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.