Facebook opracowuje nową metodę podwojenia wydajności transformatorów AI
W skrócie
Facebook opracował nową metodę podwojenia wydajności transformatorów AI w oparciu o architekturę transformatora.
Nowa metoda znajduje najbardziej podobne poprawki w przerwach między przetwarzaniem różnych bloków i łączy je w celu zmniejszenia złożoności obliczeniowej.
Facebook opracował tzw Nowa metoda do podwojenia wydajności transformatorów AI. Metoda jest w oparciu o architekturę transformatorową i jest specjalnie zaprojektowany do długich tekstów, takich jak książki, artykuły i blogi. Celem nowego transformatora AI jest poprawa wydajności modele transformatorowe na długim tekście, czyniąc je bardziej wydajnymi i skutecznymi w obsłudze długich sekwencji. Wyniki transformatora AI są bardzo obiecujące, a ta nowa metoda ma szansę pomóc poprawić wydajność modeli opartych na transformatorach w różnych zadaniach.
Oczekuje się, że ta nowa metoda będzie miała znaczący wpływ na zadania związane z przetwarzaniem języka naturalnego, takie jak tłumaczenie, streszczanie i systemy odpowiadania na pytania. Oczekuje się również, że doprowadzi to do opracowania bardziej wyrafinowanych modeli AI, które będą w stanie obsłużyć dłuższe i bardziej złożone teksty.
Aby przetworzyć obraz, nowoczesne transformatory tną go na plastry (zwykle kwadraty: patrz gif poniżej), a następnie operują na reprezentacjach tych cząstek, z których każda jest reprezentowana przez „token”. Transformatory, jak wiemy, działają wolniej, im więcej jest tych żetonów (dotyczy to zarówno tekstów, jak i obrazów), a najczęściej spotykany transformator ma zależność kwadratową. Oznacza to, że im więcej tokenów jest dodawanych, tym wolniejsze staje się przetwarzanie. Aby rozwiązać ten problem, naukowcy zaproponowali różne techniki zmniejszania liczby tokenów wymaganych do przetwarzania obrazu, takie jak łączenie hierarchiczne i adaptacyjne. Metody te mają na celu utrzymanie jakości danych wyjściowych przy jednoczesnej minimalizacji kosztów obliczeniowych.
Nowa metoda znajduje najbardziej podobne poprawki w przerwach między przetwarzaniem różnych bloków i łączy je w celu zmniejszenia złożoności obliczeniowej. Udział połączonych tokenów jest hiperparametrem; im wyższy, tym niższa jakość, ale także większe przyspieszenie. Eksperymenty pokazują, że możliwe jest połączenie około 40% tokenów ze stratą jakości 0.1-0.4% i uzyskanie podwójnego przyspieszenia (a tym samym mniejsze zużycie pamięci). Ta nowa metoda jest obiecującym rozwiązaniem pozwalającym zmniejszyć złożoność obliczeniową przetwarzania obrazu i może pozwolić na szybsze i wydajniejsze przetwarzanie bez uszczerbku dla jakości końcowego wyniku.
Takie podejście inżynierskie oparte na pomysłowości i zrozumieniu, jak coś działa, wygląda bardzo atrakcyjnie. Ponadto programiści Meta obiecują wnieść więcej do StableDiffusion, aby przyspieszyć również tam. To niesamowite, że ponieważ transformatory są wszędzie, takie sztuczki można szybko wdrożyć w szerokiej gamie modeli. Pokazuje to, że rozwiązania inżynieryjne mogą mieć szeroki wpływ na różne branże. Ciekawie będzie zobaczyć, jak te postępy w modele transformatorów z czasem będzie się rozwijał i poprawiał.
- Meta AI i dokumenty z kodem wypuścili pierwszy model 120B Galactica przeszkolony na tekstach naukowych, co pozwala na dokładniejsze i szybsze prognozy. Celem Galactica jest pomoc badaczom w oddzieleniu rzeczy ważnych od nieistotnych.
Przeczytaj więcej powiązanych wiadomości:
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.
Więcej artykułówDamir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.