Ulat sa Balita Teknolohiya
Hunyo 01, 2023

OpenAI: Bagong Proseso-Supervised Reward Modeling Pinapahusay ang AI Reasoning

Sa madaling sabi

OpenAILayunin ng process-supervised reward modeling (PRM) na suriin ang mga intermediate na hakbang at pangangatwiran ng mga modelo ng AI, na humahantong sa pinahusay na pagganap at mga sukatan.

OpenAI ay muling nakakuha ng atensyon ng AI community sa kanilang groundbreaking na gawain sa process-supervised reward modeling (PRMs). Ang makabagong diskarte na ito ay naglalayong suriin ang mga intermediate na hakbang at pangangatwiran ng mga modelo ng AI, na humahantong sa pinahusay na pagganap at mga sukatan.

OpenAI: Bagong Proseso-Supervised Reward Modeling Pinapahusay ang AI Reasoning
Pinasasalamatan: Metaverse Post (mpost.io)
Inirerekumendang: ChatGPT Maaaring Baguhin ang Wall Street sa pamamagitan ng Pagpapadali ng Trading

Sa tradisyonal na reinforcement na pag-aaral mula sa feedback ng tao (RLHF), ang feedback ng modelo ay karaniwang ibinibigay batay sa pangkalahatang resulta na nabuo ng modelo. gayunpaman, OpenAISinasaliksik ng bagong pananaliksik ang ideya ng pagsusuri sa mga indibidwal na hakbang at proseso ng pangangatwiran na isinagawa ng modelo. Sa paggawa nito, makakapagbigay sila ng mas detalyadong mga pagtatasa at feedback.

Upang matugunan ang problemang ito, OpenAI piniling mga problema sa matematika na nangangailangan ng maraming aksyon. Ang magkahiwalay modelo ay sinanay upang mabisang suriin ang mga intermediate na hakbang, na kumikilos bilang isang kritiko upang tukuyin ang anumang mga maling paghatol na ginawa ng pangunahing modelo. Ang prosesong ito ay hindi lamang nagpapahusay sa pangkalahatang pagganap ngunit pinapahusay din ang mga sukatan na ginagamit upang masuri ang mga kakayahan ng modelo.

OpenAI ay gumawa ng mga makabuluhang hakbang sa lugar na ito, sa paglabas ng isang maselang na-curate na dataset na binubuo ng 800,000 minarkahang paghatol. Ang bawat paghatol ay kumakatawan sa isang hiwalay na yugto sa paglutas ng mga problema sa matematika at manu-manong ginawa. Itinatampok nito ang antas ng dedikasyon at mga mapagkukunan OpenAI namumuhunan sa pagbuo ng mga de-kalidad na dataset, nagtataas ng mga tanong tungkol sa dami ng data na nakolekta para sa iba pang mga domain gaya ng programming o mga bukas na tanong.

Ang pagsasanay ng GPT-4, OpenAIang pinakabagong pag-ulit ng GPT series, maayos na ang takbo. Bagama't ang bahagi ng RLHF ay hindi isinama sa kasalukuyang mga eksperimento, isang purong modelo ng wika ang ginagamit. Kapansin-pansin, OpenAI binabanggit na mayroong maraming bersyon ng GPT-4, na may kahit na ang pinakamaliit na bersyon na nangangailangan ng makabuluhang mas kaunting mga mapagkukunan para sa pagsasanay-humigit-kumulang 200 beses na mas kaunti.

Isang nakakaintriga na halimbawa na ibinahagi ni OpenAI ipinapakita kung paano sinusuri ng modelo ang bawat indibidwal na hakbang ng desisyon. Sa isang screenshot na kasama sa post, ang mga error sa solusyon ay na-flag at binibigyan ng pinakamababang marka ng kawastuhan, na naka-highlight sa pula.
Pinasasalamatan: OpenAI

Isang nakakaintriga na halimbawa na ibinahagi ni OpenAI ipinapakita kung paano sinusuri ang modelo bawat indibidwal na hakbang ng desisyon. Sa isang screenshot na kasama sa post, ang mga error sa solusyon ay na-flag at binibigyan ng pinakamababang marka ng kawastuhan, na naka-highlight sa pula. Itinatampok ng demonstrasyon na ito ang kakayahan ng modelo na mangatwiran at nagbibigay ng mahahalagang insight sa proseso ng paggawa ng desisyon nito. OpenAI ay nagbigay din ng mga tagubilin para sa mga markup, na nag-aalok ng mga pagkakataon para sa mga crowdsourcer na mag-ambag at makinabang mula sa kanilang trabaho.

As OpenAI patuloy na itinutulak ang mga hangganan ng pananaliksik sa AI, ang kanilang pagtuon sa pangangatwiran ng modelo at pagmomodelo ng gantimpala na pinangangasiwaan ng proseso ay nagdudulot ng mga bagong posibilidad para sa mga pinahusay na kakayahan ng AI. Ang pinakabagong tagumpay na ito ay nagpapakita ng kanilang pangako sa pagpapabuti ng pagganap ng modelo at nagbubukas ng mga pinto para sa higit pang mga pagsulong sa larangan.

Magbasa pa tungkol sa AI:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Ang mga pagsisiwalat sa pamamagitan ng 13F filing ay nagpapakita ng mga kilalang institusyonal na mamumuhunan na nakikipag-ugnayan sa mga Bitcoin ETF, na binibigyang-diin ang lumalaking pagtanggap ng ...

Malaman Higit Pa

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
Ang Paglipat ni Donald Trump sa Crypto: Mula sa Kalaban hanggang sa Tagapagtaguyod, at Ano ang Kahulugan Nito para sa US Cryptocurrency Market
Negosyo markets Mga Kuwento at Pagsusuri Teknolohiya
Ang Paglipat ni Donald Trump sa Crypto: Mula sa Kalaban hanggang sa Tagapagtaguyod, at Ano ang Kahulugan Nito para sa US Cryptocurrency Market
Mayo 10, 2024
Layer3 Upang Ilunsad ang L3 Token Ngayong Tag-init, Naglalaan ng 51% Ng Kabuuang Supply Sa Komunidad
markets Ulat sa Balita Teknolohiya
Layer3 Upang Ilunsad ang L3 Token Ngayong Tag-init, Naglalaan ng 51% Ng Kabuuang Supply Sa Komunidad
Mayo 10, 2024
Ang Pangwakas na Babala ni Edward Snowden sa Mga Nag-develop ng Bitcoin: “Gawing Priyoridad sa Antas ng Protokol ang Pagkapribado o Panganib na Mawala Ito
markets Katiwasayan Wiki software Mga Kuwento at Pagsusuri Teknolohiya
Ang Pangwakas na Babala ni Edward Snowden sa Mga Nag-develop ng Bitcoin: “Gawing Priyoridad sa Antas ng Protokol ang Pagkapribado o Panganib na Mawala Ito
Mayo 10, 2024
Optimism-Powered Ethereum Layer 2 Network Mint Upang Ilunsad ang Mainnet Nito Sa Mayo 15
Ulat sa Balita Teknolohiya
Optimism-Powered Ethereum Layer 2 Network Mint Upang Ilunsad ang Mainnet Nito Sa Mayo 15
Mayo 10, 2024
CRYPTOMERIA LABS PTE. LTD.