Alibaba wprowadza model językowy Qwen-7B typu open source
Alibaba zaprezentowała swój model dużego języka (LLM) o otwartym kodzie źródłowym Qwen-7B, wyznaczając ich inauguracyjne wejście w sferę publicznie dostępnych LLM. Ten model jest zbudowany na 7 miliardach parametrów.
Dla porównania, Qwen-7B przeszedł szkolenie przy użyciu 2.2 biliona tokenów. Rozmiar kontekstu ustawiony podczas tej fazy szkolenia wynosił 2048, a użytkownicy mogą go zwiększyć podczas testów maksymalnie do 8192. W porównaniu, Llama-2, kolejny LLM, oferuje rozmiar kontekstu 4096.
Testy porównawcze są niezbędne do oceny wydajności takich modeli i w tej dziedzinie chińscy programiści twierdzą, że Qwen-7B przekroczył Llama-2. Jednym z wyróżniających się wskaźników jest test porównawczy kodowania Human-Eval, w którym Qwen-7B uzyskuje wynik 24.4 w porównaniu Llama-2 to 12.8. Jednak rozsądnie jest podchodzić do tych liczb z pewną ostrożnością. Niektóre testy porównawcze wskazują, że Qwen-7B przewyższa nie tylko model podstawowy LLama-2-7B, ale także LLaMAWariant -2-13B. Jednak w porównaniu z wyrafinowanymi wersjami Llama-2, margines różnicy staje się węższy. Należy zauważyć, że dokładna metodologia szkolenia Qwen-7B nie została szczegółowo opisana przez jego twórców.
W funkcjonalności równoległej do LLaMa2-chat, Qwen przedstawił wersję skoncentrowaną na czacie o nazwie Qwen-7B-Chat. Model ten jest zoptymalizowany pod kątem interakcji z użytkownikami i zawiera różne narzędzia i narzędzia Pszczoła aby zwiększyć jego responsywność.
Osoby zainteresowane szczegółami technicznymi będą zainteresowane tym, że fundamenty architektoniczne Qwen-7B są podobne do LLaMA. Istnieją jednak różne cechy, które odróżniają Qwen-7B:
- Wykorzystuje niewiązane osadzanie.
- Stosowane jest osadzanie w pozycji obrotowej.
- Uprzedzenia są wykluczone, z wyjątkiem uwagi QKV.
- RMSNorm jest preferowany w stosunku do LayerNorm.
- Zamiast standardowego ReLU włączono SwiGLU.
- W celu przyspieszenia procesu treningowego wprowadzono uwagę Flash.
- Model składa się z 32 warstw, ma wymiar osadzania 4096 i mieści 32 głowy uwagi.
Pod względem licencji Qwen-7B jest zgodny z Llama-2. Pozwala na wykorzystanie komercyjne, ale z zastrzeżeniem liczby użytkowników. Chwila Llama-2 ustawia ten limit na 700 milionów aktywnych użytkowników miesięcznie, próg Qwen-7B wynosi 100 milionów.
Osoby poszukujące dogłębnej analizy mogą zapoznać się z raportem technicznym dostępnym na GitHub. Dodatkowo, demonstracja Qwen-7B, udostępniona w języku chińskim, jest dostępna dla osób zainteresowanych praktycznym poznaniem możliwości modelu.
Przeczytaj więcej o sztucznej inteligencji:
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.
Więcej artykułówDamir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.