FLM-101B: niezwykle ekonomiczny model językowy w skali 101B, konkurujący z wiodącymi modelami AI
W skrócie
Chiński LLM, LM-101B, można przeszkolić przy budżecie 100 XNUMX dolarów, osiągając wydajność porównywalną z dobrze znanymi modelami, takimi jak GPT-3 i GLM-130B.
Chińscy badacze zaprezentowali nowy LLM, tzw FLM-101B, LLM przeznaczony wyłącznie do dekodera, mogący poszczycić się niezwykłymi 101 miliardami parametrów. Rozwój ten zapewnia opłacalną alternatywę zarówno dla celów badawczych, jak i zastosowań praktycznych.
Tym, co wyróżnia FLM-101B, jest wyjątkowa wydajność osiągnięta przy stosunkowo skromnym budżecie. Chociaż powszechnie wiadomo, że szkolenie LLM od podstaw może wymagać astronomicznych inwestycji, twórcy FLM-101B pokazali, że możliwe jest wytrenowanie modelu ze 101 miliardami parametrów przy budżecie wynoszącym zaledwie 100 tys. dolarów.
Wyniki eksperymentów są po prostu imponujące. FLM-101B wykazał poziom wydajności porównywalny z ustalonym i wymagający dużych zasobów modele lubią GPT-3 i GLM-130B. Porównanie to podkreśla ogromny potencjał tego opłacalnego modelu, szczególnie w przypadku testów porównawczych IQ ze złożonymi kontekstami, których nie ma w danych szkoleniowych.
W ramach posunięcia, które podkreśla ich zaangażowanie w rozwój badań i rozwoju sztucznej inteligencji, twórcy FLM-101B udostępnili temu modelowi oprogramowanie typu open source. Naukowcy i programiści na całym świecie mogą teraz uzyskać dostęp do tego LLM w skali 101B i wykorzystać go do różnych zastosowań, obejmujących zarówno język chiński, jak i angielski.
Model FLM-101B wykorzystuje unikalne podejście szkoleniowe. Szybko gromadzi wiedzę z mniejszego modelu zawierającego 16 miliardów parametrów na początkowych etapach uczenia i stopniowo skaluje się do 101 miliardów parametrów. To podejście przyrostowe znacznie zmniejsza koszty szkolenia, dzięki czemu jest wykonalne finansowo w przypadku szerszego zakresu projektów.
Jedną z wyróżniających się cech FLM-101B jest obsługa efektywnego zwiększania rozmiaru okna podczas wnioskowania. Osiąga się to poprzez zastosowanie osadzania pozycji obrotowej xPos, co pozwala modelowi obsługiwać szerszy kontekst, zwiększając jego możliwości adaptacyjne i użyteczność.
FLM-101B został przeszkolony na klastrze 24 serwerów GPU DGX-A800 w mniej niż 26 dni. To imponujące osiągnięcie podkreśla skalowalność modelu i efektywne wykorzystanie zasobów. Baza kodu szkoleniowego modelu, zaadaptowana z Megatron-LM, wkrótce będzie dostępna jako oprogramowanie typu open source, zapewniając cenne spostrzeżenia społeczności AI.
Twórcy FLM-101B zdają sobie sprawę z potencjalnych ograniczeń, w tym narażenia modelu na niebezpieczne przykłady w korpusie szkoleniowym ze względu na otwarty charakter zbioru danych. To zastrzeżenie służy jako przypomnienie o znaczeniu odpowiedzialnego korzystania ze sztucznej inteligencji i moderacja treści.
Chociaż FLM-101B osiągnął niezwykłe wyniki, twórcy dostrzegają obszary wymagające ulepszeń. Proces wnioskowania modelu, choć potężny, nie jest jeszcze w pełni zoptymalizowany, co prowadzi do większego wykorzystania zasobów i zmniejszenia szybkości. Jednakże trwają plany wprowadzenia Flash Attention do wnioskowania, aby rozwiązać to ograniczenie.
Przeczytaj więcej o sztucznej inteligencji:
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.
Więcej artykułówDamir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.