Raport aktualności Technologia
27 października 2023 r.

Naukowcy zreplikowali OpenAIPraca oparta na najbliższej optymalizacji polityki (PPO) w RLHF

Uczenie się przez wzmacnianie na podstawie informacji zwrotnej od ludzi (RLHF) jest integralną częścią systemów szkoleniowych takich jak: ChatGPTi opiera się na wyspecjalizowanych metodach, aby osiągnąć sukces. Początkowo jedną z tych metod była Proximal Policy Optimization (PPO). poczęty w obrębie murów OpenAI w 2017 roku. Na pierwszy rzut oka PPO wyróżniało się obietnicą prostoty wdrożenia i stosunkowo małą liczbą hiperparametrów wymaganych do dostrojenia modelu. Jak jednak mówią, diabeł tkwi w szczegółach.

Naukowcy zreplikowali OpenAIPraca oparta na najbliższej optymalizacji polityki (PPO) w RLHF

Niedawno na blogu pojawił się wpis pt.37 szczegółów wdrożenia najbliższej optymalizacji polityki” rzucić światło na zawiłości PPO (przygotowanego na konferencję ICLR). Już sama nazwa wskazuje na wyzwania stojące przed wdrożeniem tej rzekomo prostej metody. Co zaskakujące, zebranie wszystkich niezbędnych informacji i odtworzenie wyników zajęło autorom trzy lata.

Kod w OpenAI repozytorium przeszło znaczące zmiany pomiędzy wersjami, niektóre aspekty pozostały niewyjaśnione, a osobliwości, które pojawiły się jako błędy, w jakiś sposób przyniosły rezultaty. Złożoność PPO staje się oczywista, gdy zagłębisz się w szczegóły, a dla osób zainteresowanych głębokim zrozumieniem lub samodoskonaleniem dostępne jest gorąco polecane podsumowanie wideo.

Ale na tym historia się nie kończy. Ci sami autorzy postanowili ponownie przyjrzeć się openaiRepozytorium /lm-human-preferences z 2019 r., który odegrał kluczową rolę w dopracowywaniu modeli językowych w oparciu o preferencje człowieka, za pomocą PPO. To repozytorium oznaczało wczesne zmiany ChatGPT. Niedawny wpis na blogu „Szczegóły wdrożenia N RLHF z PPO”, dokładnie powtarza OpenAI's, ale używa PyTorch i nowoczesnych bibliotek zamiast przestarzałego TensorFlow. To przejście wiązało się z własnym zestawem wyzwań, takich jak różnice w implementacji optymalizatora Adama pomiędzy frameworkami, co uniemożliwiało replikację szkolenia bez dostosowań.

Być może najbardziej intrygującym aspektem tej podróży jest próba przeprowadzenia eksperymentów na konkretnych konfiguracjach GPU w celu uzyskania oryginalnych wskaźników i krzywych uczenia się. To podróż pełna wyzwań, od ograniczeń pamięci w różnych typach procesorów graficznych po migrację OpenAI zbiory danych pomiędzy magazynami.

Podsumowując, badanie najbliższej optymalizacji polityki (PPO) w uczeniu się przez wzmacnianie na podstawie informacji zwrotnej od ludzi (RLHF) ujawnia fascynujący świat złożoności.

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Hot Stories
Dołącz do naszego newslettera.
Najnowsze wieści

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Giełda kryptowalut OKX wystawia Notcoin, a 16 maja wprowadzi handel spot z parą NOT-USDT
rynki Raport aktualności Technologia
Giełda kryptowalut OKX wystawia Notcoin, a 16 maja wprowadzi handel spot z parą NOT-USDT  
10 maja 2024 r.
Blast uruchamia trzecie wydarzenie związane z dystrybucją złota Blast, w ramach którego przydziela 15 milionów punktów DApps
rynki Raport aktualności Technologia
Blast uruchamia trzecie wydarzenie związane z dystrybucją złota Blast, w ramach którego przydziela 15 milionów punktów DApps
10 maja 2024 r.
Espresso Systems współpracuje z Polygon Labs w celu opracowania oprogramowania AggLayer w celu zwiększenia interoperacyjności pakietów zbiorczych
Biznes Raport aktualności Technologia
Espresso Systems współpracuje z Polygon Labs w celu opracowania oprogramowania AggLayer w celu zwiększenia interoperacyjności pakietów zbiorczych
9 maja 2024 r.
Protokół infrastrukturalny oparty na ZKP ZKBase przedstawia plan działania, planuje uruchomienie sieci Testnet w maju
Raport aktualności Technologia
Protokół infrastrukturalny oparty na ZKP ZKBase przedstawia plan działania, planuje uruchomienie sieci Testnet w maju
9 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.