Raport aktualności Technologia
15 maja 2023 r.

Programy LLM: nowa ścieżka do precyzyjnego dostrajania modeli neuronowych w złożonych sytuacjach

W skrócie

Autorzy proponują alternatywną ścieżkę zwaną Programami LLM, którą można uznać za rozwój uczenia się w kontekście.

Kluczem do rozwiązania problemu za pomocą programu LLM jest umiejętność rozłożenia rozwiązania problemu na sekwencję prostszych kroków.

Istnieją dwa główne obszary dostosowywania LLM: dostrajanie (lub dodatkowe szkolenie) wstępnie wytrenowanego modelu podstawowego i uczenie się w kontekście. Aby to zrobić, precyzyjne dostrojenie wymaga znacznych zasobów obliczeniowych, gromadzenia danych i infrastruktury, a następnie hostowania precyzyjnie dostrojonych modeli. Tymczasem uczenie się w kontekście polega na zestawieniu odpowiedniego podpowiedzi z przykładami rozwiązania problemu, takimi jak Chain-of-Thought (CoT). Istnieją jednak pewne trudności, takie jak ograniczony rozmiar tekstu, który można przesłać do modelu oraz fakt, że w złożonym monicie wieloprzebiegowym kroki mogą kolidować ze sobą, a model może być rozproszony przez coś w tej chwili nie należy się tym przejmować. Autorzy proponują alternatywną ścieżkę tzw Programy LLM, co można uznać za rozwój uczenia się w kontekście.

Programy LLM: nowa ścieżka do precyzyjnego dostrajania modeli neuronowych w złożonych sytuacjach
Polecamy: Najlepszy przewodnik po inżynierii Prompt 2023

LLM jest wbudowany w program (w konwencjonalnym język programowania, na przykład w Pythonie). Ten zewnętrzny kod jest odpowiedzialny za przechowywanie stanu i utrzymywanie modelu krok po kroku. Ma to kilka zasadniczych zalet: języki programowania są do tego przystosowane, zwiększa się rozmiar dostępnego kontekstu, a kroki nie kolidują ze sobą. Kluczem do rozwiązania problemu za pomocą programu LLM jest umiejętność rozłożenia rozwiązania problemu na sekwencję prostszych kroków. Podejście to różni się od poprzednich prac, w których w modelu wykorzystano narzędzia zewnętrzne, takie jak kalkulatory lub interpretery kodu aby utrzymać państwo. Takie podejście jest dobre, ponieważ w ten sposób można opisać złożone i rozproszone zadanie, co ułatwia testowanie, debugowanie i ocenę jakości.

Dodatkowo nie ma interferencji między krokami, co ułatwia pracę z LLM. Systemy pytań i odpowiedzi również nie są nowe; istniały na długo przed LLM. Jak teraz rozwiązane jest zadanie odpowiadania na pytania?

Witryny są często aktualizowane, więc a zamrożony model nie jest opcją; szybko się zdezaktualizuje i nie będzie w stanie odpowiedzieć na pytania dotyczące nowych produktów. Ciągłe ponowne uczenie modelu przy każdej aktualizacji nie jest realistyczną opcją: jest drogie i czasochłonne. Zamiast tego strony witryny są zwykle indeksowane, umieszczane w jakiejś bazie danych i często wektoryzowane. Na żądanie użytkownika odpowiednie dokumenty są pobierane i wysyłane jako kontekst do LLM.

W takim paradygmacie problem jest naturalnie rozwiązywany przez program LLM. Jako bonus, to staje się możliwe zaimplementować bardziej złożoną logikę wieloprzebiegową, która nie pasowałaby całkowicie do kontekstu.

Testowane na Zestaw danych StrategyQA zawierające problemy klasyfikacji binarnej, których rozwiązanie wymaga rozumowania wielokierunkowego. Na przykład „Czy światło słoneczne przenika do najgłębszych miejsc Morza Czarnego?”. Aby odpowiedzieć, musisz znaleźć maksymalną głębokość (2 km) i jak głęboko światło przenika wodę (1 km), a następnie wyciągnąć wnioski. Spójrzmy na inne przykładowe pytanie: „Czy Arystoteles używał laptopa?” To pytanie nie jest tak proste i nie wynika bezpośrednio z sekwencji kroków rozumowania, jak „Czy Arystoteles żył, kiedy wynaleziono laptopa?” robi. Zbiór danych koncentruje się na pytaniach, w których taka sekwencja jest niejawna. W zbiorze danych jest tylko 2,780 pytań, z których tylko 918 zawiera akapity z dowodami, które wzmacniają wszystkie etapy rozumowania. W bieżącej pracy ogranicza się do tego podzbioru; w przeciwnym razie musielibyśmy polegać na tym, że LLM nauczył się pewnych faktów podczas szkolenia wstępnego.

OPT-175B LLM domyślnie nie jest zbyt dobry w wykonywaniu instrukcji; nie musiał dostrajać instrukcji ani danych konwersacyjnych. Aby rozwiązać problem odpowiedzi na pytania poparte dowodami, dzieli się na etap filtrowania danych i etap przeszukiwania drzewa.

Na etapie filtrowania, mając pytanie, programiści przeglądają wszystkie akapity i wybierają te najbardziej odpowiednie. Na przykład za pomocą krótkiego monitu poproś LLM o odpowiedź (tak/nie), czy dany akapit jest odpowiedni dla zadanego pytania. Testowane na 300 podzbiorach StrategyQA, gdzie każde pytanie było dopasowane do akapitu, istotnego lub nie, 50/50. OPT-175B i text-davinci-002 nie mają dużo wyższa jakość niż losowa linia bazowa: do 56%. Bardziej zaawansowany 11B Tk-Instrukcja niewiele lepiej i wynosi 61.6%.

Ze względu na słabą jakość tego podejścia opracowano alternatywę, która uwzględnia średni negatywny logarytm wiarygodności (NLL) pytania w połączeniu z poprzednim akapitem tekstu, a następnie szereguje wyniki. Oceniono na zbiorze danych, w którym dla każdego pytania było 100 akapitów i tylko jeden był odpowiedni (więc losowe zgadywanie daje 1%). Uzyskaliśmy najwyższą dokładność na poziomie 1% i pierwszą piątkę na poziomie 79%. Do tych obliczeń zwykle potrzebny jest dostęp do samego modelu, co nie zawsze jest wykonywane w interfejsie API.

Następnie następuje etap budowania łańcuchów produkcji. Odbywa się to poprzez przeszukiwanie drzewa, w którym pytanie jest korzeniem, a na każdym poziomie istnieje wiele akapitów z możliwymi dowodami wykorzystywanymi jako kontekst do wygenerowania następnego kroku. Każda ścieżka w drzewie jest potencjalnym łańcuchem wyjściowym. Wyciąganie wniosków na temat wszystkich możliwych łańcuchów jest nierealne, więc wszystkie dostępne łańcuchy są uszeregowane, a łańcuch o najwyższym rankingu jest rozszerzany. Jest to taka odmiana wyszukiwania wiązki. Proces zatrzymuje się po udzieleniu odpowiedzi lub po przekroczeniu maksymalnej dozwolonej liczby kroków.

Najważniejszymi szczegółami są dwie strategie rankingowe przetestowane dla kroku wyszukiwania drzewa. Pierwsza strategia opiera się na średniej NLL całego łańcucha, podczas gdy druga strategia analizuje średnią różnicę w NLL z akapitem i bez (P), z pytaniem i bez (Q). Na dostępnych 918 pytań ze StrategyQA podejście to znacznie poprawia jakość odpowiedzi w stosunku do linii bazowej z CoT (60%); obie opcje wyszukiwania dają około 66% (strategia z nieco wyższą deltą). Jeśli zostaną przesłane złote fakty, jakość wynosi około 81%, co stanowi górną granicę dla OPT. Wydaje się, że Darklang gdzieś tam zmierza, ale w nieco inny sposób.

Artykuł oparty na Telegramie pisać.

Przeczytaj więcej o sztucznej inteligencji:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Injective łączy siły z AltLayer, aby zapewnić bezpieczeństwo ponownego stakowania w inEVM
Biznes Raport aktualności Technologia
Injective łączy siły z AltLayer, aby zapewnić bezpieczeństwo ponownego stakowania w inEVM
3 maja 2024 r.
Masa współpracuje z Tellerem, aby wprowadzić pulę pożyczek MASA, umożliwiającą zaciąganie pożyczek w USDC
rynki Raport aktualności Technologia
Masa współpracuje z Tellerem, aby wprowadzić pulę pożyczek MASA, umożliwiającą zaciąganie pożyczek w USDC
3 maja 2024 r.
Velodrome wprowadza wersję beta Superchain w nadchodzących tygodniach i rozszerza się na łańcuchy bloków warstwy 2 stosu OP
rynki Raport aktualności Technologia
Velodrome wprowadza wersję beta Superchain w nadchodzących tygodniach i rozszerza się na łańcuchy bloków warstwy 2 stosu OP
3 maja 2024 r.
CARV ogłasza partnerstwo z firmą Aethir w celu decentralizacji warstwy danych i dystrybucji nagród
Biznes Raport aktualności Technologia
CARV ogłasza partnerstwo z firmą Aethir w celu decentralizacji warstwy danych i dystrybucji nagród
3 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.