Raport aktualności Technologia
01 czerwca 2023 r.

OpenAI: Nowe modelowanie nagród nadzorowane przez proces poprawia rozumowanie AI

W skrócie

OpenAIModelowanie nagród nadzorowane przez proces (PRM) ma na celu ocenę pośrednich kroków i rozumowania modeli AI, co prowadzi do poprawy wydajności i wskaźników.

OpenAI po raz kolejny zwróciła uwagę społeczności sztucznej inteligencji dzięki przełomowym pracom nad nadzorowanym procesem modelowania nagród (PRM). To innowacyjne podejście ma na celu ocenę etapów pośrednich i rozumowania modeli AI, co prowadzi do poprawy wydajności i wskaźników.

OpenAI: Nowe modelowanie nagród nadzorowane przez proces poprawia rozumowanie AI
kredyt: Metaverse Post (mpostio)
Polecane: ChatGPT Może zmienić Wall Street, ułatwiając handel

W tradycyjnym uczeniu się przez wzmacnianie na podstawie informacji zwrotnych od ludzi (RLHF), informacja zwrotna od modelu jest zwykle podawana na podstawie ogólnego wyniku wygenerowanego przez model. Jednakże, OpenAINowe badania badają ideę oceny poszczególnych kroków i procesów rozumowania podejmowanych przez model. W ten sposób mogą zapewnić bardziej szczegółowe oceny i informacje zwrotne.

Aby rozwiązać ten problem, OpenAI wybranych problemów matematycznych, które wymagały wielu działań. Oddzielny model został przeszkolony, aby skutecznie oceniać kroki pośrednie, działając jako krytyk w celu zidentyfikowania wszelkich błędnych osądów dokonanych przez model główny. Ten proces nie tylko poprawia ogólną wydajność, ale także poprawia metryki używane do oceny możliwości modelu.

OpenAI poczyniła znaczące postępy w tej dziedzinie, publikując skrupulatnie opracowany zestaw danych składający się z 800,000 XNUMX oznaczonych wyroków. Każda ocena reprezentuje odrębny etap rozwiązywania problemów matematycznych i została stworzona ręcznie. To podkreśla poziom zaangażowania i zasobów OpenAI inwestuje w tworzenie wysokiej jakości zbiorów danych, zadając pytania o ilość danych gromadzonych dla innych dziedzin, takich jak programowanie lub pytania otwarte.

Szkolenie GPT-4, OpenAInajnowsza iteracja GPT serii, jest już w toku. Chociaż w bieżących eksperymentach nie uwzględniono składnika RLHF, wykorzystano model czysto językowy. Szczególnie, OpenAI wspomina, że ​​istnieje wiele wersji GPT-4, przy czym nawet najmniejsza wersja wymaga znacznie mniej zasobów do szkolenia — około 200 razy mniej.

Intrygujący przykład udostępniony przez OpenAI pokazuje, w jaki sposób model ocenia każdy indywidualny krok decyzyjny. Na zrzucie ekranu dołączonym do postu błędy w rozwiązaniu są oznaczane i otrzymują najniższą ocenę poprawności, podświetloną na czerwono.
kredyt: OpenAI

Intrygujący przykład udostępniony przez OpenAI pokazuje, jak model ocenia każdym indywidualnym kroku decyzyjnym. Na zrzucie ekranu dołączonym do postu błędy w rozwiązaniu są oznaczane i otrzymują najniższą ocenę poprawności, podświetloną na czerwono. Ta demonstracja podkreśla zdolność modelu do rozumowania i zapewnia cenny wgląd w jego proces decyzyjny. OpenAI dostarczył również instrukcje dotyczące znaczników, oferując społecznościom możliwość wniesienia wkładu i czerpania korzyści z ich pracy.

As OpenAI nadal przesuwa granice badań nad sztuczną inteligencją, a ich skupienie się na rozumowaniu modelowym i nadzorowanym procesami modelowaniu nagród przynosi nowe możliwości ulepszonych możliwości sztucznej inteligencji. Ten najnowszy przełom pokazuje ich zaangażowanie w poprawę wydajności modeli i otwiera drzwi do dalszych postępów w tej dziedzinie.

Przeczytaj więcej o sztucznej inteligencji:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Przejście Donalda Trumpa na kryptowaluty: od przeciwnika do adwokata i co to oznacza dla amerykańskiego rynku kryptowalut
Biznes rynki Historie i recenzje Technologia
Przejście Donalda Trumpa na kryptowaluty: od przeciwnika do adwokata i co to oznacza dla amerykańskiego rynku kryptowalut
10 maja 2024 r.
Warstwa 3 uruchomi token L3 tego lata, przydzielając 51% całkowitej podaży społeczności
rynki Raport aktualności Technologia
Warstwa 3 uruchomi token L3 tego lata, przydzielając 51% całkowitej podaży społeczności
10 maja 2024 r.
Ostatnie ostrzeżenie Edwarda Snowdena dla twórców Bitcoina: „Uczyń prywatność priorytetem na poziomie protokołu, w przeciwnym razie ryzykuj jej utratę
rynki Bezpieczeństwo Wiki Tworzenie Historie i recenzje Technologia
Ostatnie ostrzeżenie Edwarda Snowdena dla twórców Bitcoina: „Uczyń prywatność priorytetem na poziomie protokołu, w przeciwnym razie ryzykuj jej utratę
10 maja 2024 r.
Oparta na optymizmie sieć Ethereum Layer 2 Network Mint uruchomi swoją sieć główną 15 maja
Raport aktualności Technologia
Oparta na optymizmie sieć Ethereum Layer 2 Network Mint uruchomi swoją sieć główną 15 maja
10 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.