Raport aktualności Technologia
06 lutego 2023 r.

XLM-V: Nowa metoda wielojęzycznych modeli języków maskowanych, która próbuje rozwiązać problem wąskich gardeł słownictwa

W skrócie

W artykule poruszono następujący problem: modele językowe wzrost parametrów, pogłębienie się, ale słownictwo pozostaje tej samej wielkości.

Badacze w nieoczekiwany sposób rozpoczynają trenowanie nowego modelu z milionem tokenów ze słownika.

Badacze byli zdeterminowani, aby zobaczyć, jakiego rodzaju ulepszeń mogliby dokonać przy tak znacznym wzroście liczby tokenów.

Kwestia poruszona przez artykuł zatytułowanym „XLM-V: Przezwyciężanie wąskiego gardła słownictwa w modelach wielojęzycznego języka maskowanego” polega na tym, że gdy parametry i głębokość modeli językowych wzrastają, ich słownictwo pozostaje niezmienione. Na przykład model mT5 ma 13B parametrów, ale słownictwo o długości 250 100 słów obsługuje ponad 2,500 języków. Tak więc każdy język ma około XNUMX unikalnych tokenów, co oczywiście jest bardzo małą liczbą.

XLM-V: Nowa metoda wielojęzycznych modeli języka maskowanego, która próbuje rozwiązać problem wąskiego gardła słownictwa
@ Midjourney /Salv

Jakie działania podejmują autorzy? W nieoczekiwany sposób zaczynają trenować nowy model z milionem tokenów ze słownika. XLM-R istniał wcześniej, jednak dzięki tej aktualizacji stanie się XLM-V. Twórcy byli zdeterminowani, aby zobaczyć, jakie ulepszenia mogliby wprowadzić przy tak znacznym wzroście tokenów.

Podobne artykuły: Oczekuje się, że koszty szkolenia modeli sztucznej inteligencji wzrosną ze 100 mln USD do 500 mln USD do 2030 r.

Co w XLM-V jest nowego, czego nie miał XLM-R?

Co w XLM-V jest nowego, czego nie miał XLM-R?

Poprawa Modele wielojęzyczne z metodą Language-Clustered Vocabularies służy do konstruowania leksykalnych wektorów reprezentacji dla każdego języka w następujący sposób: dla każdego języka w zbiorze języków tworzą wektor binarny, którego każdy element jest określonym słowem w języku. Jedna wskazuje, że słowo znajduje się w słowniku języka (w załącznikach można zobaczyć obraz z graficznym opisem). Jednak tworząc wektor wykorzystujący ujemne logarytmiczne prawdopodobieństwo wystąpienia każdego leksemu, autorzy poprawiają sposób tworzenia odniesień .

  1. Następnie wektory są grupowane. Dodatkowo na każdym konkretnym skupieniu szkolony jest model fragmentu zdania, aby zatrzymać przenoszenie słownictwa między leksykalnie niepowiązanymi językami.
  2. ALP ocenia zdolność słownika do reprezentowania określonego języka.
  3. Wykorzystanie algorytmu do tworzenia ULM słowniki to kolejny krok. który zaczyna się od dużego początkowego słownika i stopniowo go przycina, aż liczba tokenów spadnie poniżej pewnego progu rozmiaru słownika.

Przeczytaj więcej o sztucznej inteligencji:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Oparta na Bitcoinie Eternal AI uruchamia wydarzenie generowania tokenu EAI na Launchpadzie Naka
rynki Raport aktualności Technologia
Oparta na Bitcoinie Eternal AI uruchamia wydarzenie generowania tokenu EAI na Launchpadzie Naka
3 maja 2024 r.
Od Gamera do Meme Coin Sensation: jak humorystyczna narracja Sealany przemawia do inwestorów
Raport aktualności
Od Gamera do Meme Coin Sensation: jak humorystyczna narracja Sealany przemawia do inwestorów
3 maja 2024 r.
Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności
Analiza Biznes rynki Technologia
Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności
3 maja 2024 r.
XION i TOKI ogłaszają wprowadzenie abstrakcji łańcuchów stworzonej dla ekosystemu łańcuchów BNB
Biznes Raport aktualności Technologia
XION i TOKI ogłaszają wprowadzenie abstrakcji łańcuchów stworzonej dla ekosystemu łańcuchów BNB
3 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.