rynki Raport aktualności
08 sierpnia 2023 r.

Alibaba wprowadza model językowy Qwen-7B typu open source

Alibaba zaprezentowała swój model dużego języka (LLM) o otwartym kodzie źródłowym Qwen-7B, wyznaczając ich inauguracyjne wejście w sferę publicznie dostępnych LLM. Ten model jest zbudowany na 7 miliardach parametrów.

Alibaba wprowadza model językowy Qwen-7B typu open source

Dla porównania, Qwen-7B przeszedł szkolenie przy użyciu 2.2 biliona tokenów. Rozmiar kontekstu ustawiony podczas tej fazy szkolenia wynosił 2048, a użytkownicy mogą go zwiększyć podczas testów maksymalnie do 8192. W porównaniu, Llama-2, kolejny LLM, oferuje rozmiar kontekstu 4096.

Testy porównawcze są niezbędne do oceny wydajności takich modeli i w tej dziedzinie chińscy programiści twierdzą, że Qwen-7B przekroczył Llama-2. Jednym z wyróżniających się wskaźników jest test porównawczy kodowania Human-Eval, w którym Qwen-7B uzyskuje wynik 24.4 w porównaniu Llama-2 to 12.8. Jednak rozsądnie jest podchodzić do tych liczb z pewną ostrożnością. Niektóre testy porównawcze wskazują, że Qwen-7B przewyższa nie tylko model podstawowy LLama-2-7B, ale także LLaMAWariant -2-13B. Jednak w porównaniu z wyrafinowanymi wersjami Llama-2, margines różnicy staje się węższy. Należy zauważyć, że dokładna metodologia szkolenia Qwen-7B nie została szczegółowo opisana przez jego twórców.

W funkcjonalności równoległej do LLaMa2-chat, Qwen przedstawił wersję skoncentrowaną na czacie o nazwie Qwen-7B-Chat. Model ten jest zoptymalizowany pod kątem interakcji z użytkownikami i zawiera różne narzędzia i narzędzia Pszczoła aby zwiększyć jego responsywność.

Osoby zainteresowane szczegółami technicznymi będą zainteresowane tym, że fundamenty architektoniczne Qwen-7B są podobne do LLaMA. Istnieją jednak różne cechy, które odróżniają Qwen-7B:

  1. Wykorzystuje niewiązane osadzanie.
  2. Stosowane jest osadzanie w pozycji obrotowej.
  3. Uprzedzenia są wykluczone, z wyjątkiem uwagi QKV.
  4. RMSNorm jest preferowany w stosunku do LayerNorm.
  5. Zamiast standardowego ReLU włączono SwiGLU.
  6. W celu przyspieszenia procesu treningowego wprowadzono uwagę Flash.
  7. Model składa się z 32 warstw, ma wymiar osadzania 4096 i mieści 32 głowy uwagi.

Pod względem licencji Qwen-7B jest zgodny z Llama-2. Pozwala na wykorzystanie komercyjne, ale z zastrzeżeniem liczby użytkowników. Chwila Llama-2 ustawia ten limit na 700 milionów aktywnych użytkowników miesięcznie, próg Qwen-7B wynosi 100 milionów.

Osoby poszukujące dogłębnej analizy mogą zapoznać się z raportem technicznym dostępnym na GitHub. Dodatkowo, demonstracja Qwen-7B, udostępniona w języku chińskim, jest dostępna dla osób zainteresowanych praktycznym poznaniem możliwości modelu.

Przeczytaj więcej o sztucznej inteligencji:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Espresso Systems współpracuje z Polygon Labs w celu opracowania oprogramowania AggLayer w celu zwiększenia interoperacyjności pakietów zbiorczych
Biznes Raport aktualności Technologia
Espresso Systems współpracuje z Polygon Labs w celu opracowania oprogramowania AggLayer w celu zwiększenia interoperacyjności pakietów zbiorczych
9 maja 2024 r.
Protokół infrastrukturalny oparty na ZKP ZKBase przedstawia plan działania, planuje uruchomienie sieci Testnet w maju
Raport aktualności Technologia
Protokół infrastrukturalny oparty na ZKP ZKBase przedstawia plan działania, planuje uruchomienie sieci Testnet w maju
9 maja 2024 r.
BLOCKCHANCE i CONF3RENCE łączą siły na rzecz największego w Niemczech Web3 Konferencja w Dortmundzie
Biznes rynki Tworzenie Historie i recenzje Technologia
BLOCKCHANCE i CONF3RENCE łączą siły na rzecz największego w Niemczech Web3 Konferencja w Dortmundzie
9 maja 2024 r.
NuLink uruchamia się na Bybit Web3 Platforma IDO. Faza subskrypcji trwa do 13 maja
rynki Raport aktualności Technologia
NuLink uruchamia się na Bybit Web3 Platforma IDO. Faza subskrypcji trwa do 13 maja
9 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.