XLM-V: Nowa metoda wielojęzycznych modeli języków maskowanych, która próbuje rozwiązać problem wąskich gardeł słownictwa
W skrócie
W artykule poruszono następujący problem: modele językowe wzrost parametrów, pogłębienie się, ale słownictwo pozostaje tej samej wielkości.
Badacze w nieoczekiwany sposób rozpoczynają trenowanie nowego modelu z milionem tokenów ze słownika.
Badacze byli zdeterminowani, aby zobaczyć, jakiego rodzaju ulepszeń mogliby dokonać przy tak znacznym wzroście liczby tokenów.
Kwestia poruszona przez artykuł zatytułowanym „XLM-V: Przezwyciężanie wąskiego gardła słownictwa w modelach wielojęzycznego języka maskowanego” polega na tym, że gdy parametry i głębokość modeli językowych wzrastają, ich słownictwo pozostaje niezmienione. Na przykład model mT5 ma 13B parametrów, ale słownictwo o długości 250 100 słów obsługuje ponad 2,500 języków. Tak więc każdy język ma około XNUMX unikalnych tokenów, co oczywiście jest bardzo małą liczbą.
Jakie działania podejmują autorzy? W nieoczekiwany sposób zaczynają trenować nowy model z milionem tokenów ze słownika. XLM-R istniał wcześniej, jednak dzięki tej aktualizacji stanie się XLM-V. Twórcy byli zdeterminowani, aby zobaczyć, jakie ulepszenia mogliby wprowadzić przy tak znacznym wzroście tokenów.
Podobne artykuły: Oczekuje się, że koszty szkolenia modeli sztucznej inteligencji wzrosną ze 100 mln USD do 500 mln USD do 2030 r. |
Co w XLM-V jest nowego, czego nie miał XLM-R?
Poprawa Modele wielojęzyczne z metodą Language-Clustered Vocabularies służy do konstruowania leksykalnych wektorów reprezentacji dla każdego języka w następujący sposób: dla każdego języka w zbiorze języków tworzą wektor binarny, którego każdy element jest określonym słowem w języku. Jedna wskazuje, że słowo znajduje się w słowniku języka (w załącznikach można zobaczyć obraz z graficznym opisem). Jednak tworząc wektor wykorzystujący ujemne logarytmiczne prawdopodobieństwo wystąpienia każdego leksemu, autorzy poprawiają sposób tworzenia odniesień .
- Następnie wektory są grupowane. Dodatkowo na każdym konkretnym skupieniu szkolony jest model fragmentu zdania, aby zatrzymać przenoszenie słownictwa między leksykalnie niepowiązanymi językami.
- ALP ocenia zdolność słownika do reprezentowania określonego języka.
- Wykorzystanie algorytmu do tworzenia ULM słowniki to kolejny krok. który zaczyna się od dużego początkowego słownika i stopniowo go przycina, aż liczba tokenów spadnie poniżej pewnego progu rozmiaru słownika.
Przeczytaj więcej o sztucznej inteligencji:
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.
Więcej artykułówDamir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.