Raport aktualności Technologia
15 marca 2023 r.

Facebook opracowuje nową metodę podwojenia wydajności transformatorów AI

W skrócie

Facebook opracował nową metodę podwojenia wydajności transformatorów AI w oparciu o architekturę transformatora.

Nowa metoda znajduje najbardziej podobne poprawki w przerwach między przetwarzaniem różnych bloków i łączy je w celu zmniejszenia złożoności obliczeniowej.

Facebook opracował tzw Nowa metoda do podwojenia wydajności transformatorów AI. Metoda jest w oparciu o architekturę transformatorową i jest specjalnie zaprojektowany do długich tekstów, takich jak książki, artykuły i blogi. Celem nowego transformatora AI jest poprawa wydajności modele transformatorowe na długim tekście, czyniąc je bardziej wydajnymi i skutecznymi w obsłudze długich sekwencji. Wyniki transformatora AI są bardzo obiecujące, a ta nowa metoda ma szansę pomóc poprawić wydajność modeli opartych na transformatorach w różnych zadaniach.

Oczekuje się, że ta nowa metoda będzie miała znaczący wpływ na zadania związane z przetwarzaniem języka naturalnego, takie jak tłumaczenie, streszczanie i systemy odpowiadania na pytania. Oczekuje się również, że doprowadzi to do opracowania bardziej wyrafinowanych modeli AI, które będą w stanie obsłużyć dłuższe i bardziej złożone teksty.

Facebook opracował nową metodę podwojenia wydajności transformatorów AI
Czytaj więcej: Ponad 10 najlepszych edytorów zdjęć AI 2023: online i za darmo

Aby przetworzyć obraz, nowoczesne transformatory tną go na plastry (zwykle kwadraty: patrz gif poniżej), a następnie operują na reprezentacjach tych cząstek, z których każda jest reprezentowana przez „token”. Transformatory, jak wiemy, działają wolniej, im więcej jest tych żetonów (dotyczy to zarówno tekstów, jak i obrazów), a najczęściej spotykany transformator ma zależność kwadratową. Oznacza to, że im więcej tokenów jest dodawanych, tym wolniejsze staje się przetwarzanie. Aby rozwiązać ten problem, naukowcy zaproponowali różne techniki zmniejszania liczby tokenów wymaganych do przetwarzania obrazu, takie jak łączenie hierarchiczne i adaptacyjne. Metody te mają na celu utrzymanie jakości danych wyjściowych przy jednoczesnej minimalizacji kosztów obliczeniowych.

Nowa metoda znajduje najbardziej podobne poprawki w przerwach między przetwarzaniem różnych bloków i łączy je w celu zmniejszenia złożoności obliczeniowej. Udział połączonych tokenów jest hiperparametrem; im wyższy, tym niższa jakość, ale także większe przyspieszenie. Eksperymenty pokazują, że możliwe jest połączenie około 40% tokenów ze stratą jakości 0.1-0.4% i uzyskanie podwójnego przyspieszenia (a tym samym mniejsze zużycie pamięci). Ta nowa metoda jest obiecującym rozwiązaniem pozwalającym zmniejszyć złożoność obliczeniową przetwarzania obrazu i może pozwolić na szybsze i wydajniejsze przetwarzanie bez uszczerbku dla jakości końcowego wyniku.

Kiedy wizualizujemy, które łaty łączymy, możemy zobaczyć, że 1) są one blisko siebie i 2) opisują ten sam obiekt (patrz obszary tego samego koloru na GIF-ie). Oznacza to, że żadne istotne informacje nie zostaną utracone; obiekt pozostaje „w polu widzenia” modelu. Im później zostanie to zastosowane w transformatorze, tym więcej tokenów zostanie połączonych (ponieważ są to reprezentacje wyższego poziomu, które same dobrze opisują zawartość obrazu).

Takie podejście inżynierskie oparte na pomysłowości i zrozumieniu, jak coś działa, wygląda bardzo atrakcyjnie. Ponadto programiści Meta obiecują wnieść więcej do StableDiffusion, aby przyspieszyć również tam. To niesamowite, że ponieważ transformatory są wszędzie, takie sztuczki można szybko wdrożyć w szerokiej gamie modeli. Pokazuje to, że rozwiązania inżynieryjne mogą mieć szeroki wpływ na różne branże. Ciekawie będzie zobaczyć, jak te postępy w modele transformatorów z czasem będzie się rozwijał i poprawiał.

  • Meta AI i dokumenty z kodem wypuścili pierwszy model 120B Galactica przeszkolony na tekstach naukowych, co pozwala na dokładniejsze i szybsze prognozy. Celem Galactica jest pomoc badaczom w oddzieleniu rzeczy ważnych od nieistotnych.

Przeczytaj więcej powiązanych wiadomości:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Injective łączy siły z AltLayer, aby zapewnić bezpieczeństwo ponownego stakowania w inEVM
Biznes Raport aktualności Technologia
Injective łączy siły z AltLayer, aby zapewnić bezpieczeństwo ponownego stakowania w inEVM
3 maja 2024 r.
Masa współpracuje z Tellerem, aby wprowadzić pulę pożyczek MASA, umożliwiającą zaciąganie pożyczek w USDC
rynki Raport aktualności Technologia
Masa współpracuje z Tellerem, aby wprowadzić pulę pożyczek MASA, umożliwiającą zaciąganie pożyczek w USDC
3 maja 2024 r.
Velodrome wprowadza wersję beta Superchain w nadchodzących tygodniach i rozszerza się na łańcuchy bloków warstwy 2 stosu OP
rynki Raport aktualności Technologia
Velodrome wprowadza wersję beta Superchain w nadchodzących tygodniach i rozszerza się na łańcuchy bloków warstwy 2 stosu OP
3 maja 2024 r.
CARV ogłasza partnerstwo z firmą Aethir w celu decentralizacji warstwy danych i dystrybucji nagród
Biznes Raport aktualności Technologia
CARV ogłasza partnerstwo z firmą Aethir w celu decentralizacji warstwy danych i dystrybucji nagród
3 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.