FLM-101B: un model de llenguatge a escala 101B molt rendible que competeix amb els principals models d'IA
En breu
El LLM xinès, LM-101B, es pot entrenar amb un pressupost de 100 dòlars, aconseguint un rendiment comparable als models coneguts com ara GPT-3 i GLM-130B.
Investigadors xinesos han presentat un nou LLM, el FLM-101B, un LLM només de descodificador que compta amb 101 milions de paràmetres notables. Aquest desenvolupament proporciona una alternativa rendible tant per a la recerca com per a les aplicacions pràctiques.
El que fa que el FLM-101B destaqui és el seu rendiment excepcional aconseguit amb un pressupost relativament modest. Tot i que és ben sabut que la formació de LLM des de zero pot requerir inversions astronòmiques, els creadors de FLM-101B han demostrat que és possible entrenar un model amb 101 milions de paràmetres amb només un pressupost de 100 dòlars.
Els resultats experimentals són gens impressionants. El FLM-101B ha demostrat nivells de rendiment comparables als establerts i que requereixen molts recursos models com GPT-3 i GLM-130B. Aquesta comparació posa de manifest l'enorme potencial d'aquest model rendible, especialment en els punts de referència de coeficient intel·lectual amb contextos complexos no presents a les dades d'entrenament.
En un moviment que subratlla el seu compromís per avançar en la investigació i el desenvolupament d'IA, els creadors de FLM-101B han fet que aquest model sigui de codi obert. Els investigadors i desenvolupadors de tot el món ara poden accedir i aprofitar aquest LLM a escala 101B per a diverses aplicacions, que abasten tant l'idioma xinès com l'anglès.
El model FLM-101B utilitza un enfocament d'entrenament únic. Acumula ràpidament coneixement a partir d'un model més petit de 16 mil milions de paràmetres en les etapes inicials de la formació i escala progressivament fins a 101 mil milions de paràmetres. Aquest enfocament incremental redueix significativament els costos de formació, el que fa que sigui financerament viable per a una gamma més àmplia de projectes.
Una característica destacada del FLM-101B és el seu suport per a una expansió eficient de la mida de la finestra durant la inferència. Això s'aconsegueix mitjançant l'ús de la incrustació de posicions rotatives xPos, que permet que el model manegi un context més ampli, millorant la seva adaptabilitat i usabilitat.
FLM-101B es va entrenar en un clúster de 24 servidors GPU DGX-A800 en menys de 26 dies. Aquesta impressionant gesta subratlla l'escalabilitat del model i l'ús eficient dels recursos. La base de codi d'entrenament del model, adaptada de Megatron-LM, aviat estarà disponible com a codi obert, proporcionant informació valuosa per a la comunitat d'IA.
Els creadors de FLM-101B reconeixen les limitacions potencials, inclosa l'exposició del model a exemples insegurs en el corpus d'entrenament a causa de la naturalesa oberta del conjunt de dades. Aquesta advertència serveix com a recordatori de la importància de l'ús responsable de la IA i moderació del contingut.
Tot i que FLM-101B ha aconseguit resultats notables, els creadors reconeixen àrees de millora. El procés d'inferència del model, tot i que potent, encara no està totalment optimitzat, la qual cosa comporta un ús més elevat de recursos i una velocitat reduïda. No obstant això, s'estan duent a terme plans per introduir Flash Attention en inferència, abordant aquesta limitació.
Llegeix més sobre AI:
renúncia
En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.
About The Autor
Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.
més articlesDamir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.