Nyhetsrapport Teknologi
Juni 01, 2023

OpenAI: Ny processövervakad belöningsmodellering förbättrar AI-resonemang

I korthet

OpenAIs processövervakade belöningsmodellering (PRM) syftar till att utvärdera de mellanliggande stegen och resonemang för AI-modeller, vilket leder till förbättrad prestanda och mätvärden.

OpenAI har återigen fångat AI-gemenskapens uppmärksamhet med deras banbrytande arbete inom processövervakad belöningsmodellering (personer med nedsatt rörlighet). Detta innovativa tillvägagångssätt syftar till att utvärdera de mellanliggande stegen och resonemang för AI-modeller, vilket leder till förbättrad prestanda och mätvärden.

OpenAI: Ny processövervakad belöningsmodellering förbättrar AI-resonemang
Credit: Metaverse Post (mpost.io)
Rekommenderad: ChatGPT Kan förändra Wall Street genom att göra handeln enklare

I traditionell förstärkningsinlärning från mänsklig feedback (RLHF), ges modellfeedback vanligtvis baserat på det övergripande resultatet som genereras av modellen. Dock, OpenAIs nya forskning utforskar idén om att utvärdera de individuella stegen och resonemangsprocesserna som modellen genomför. Genom att göra det kan de ge mer finkorniga bedömningar och feedback.

För att ta itu med detta problem, OpenAI utvalda matematiska problem som krävde flera åtgärder. En separat modell tränades för att effektivt utvärdera de mellanliggande stegen och fungerade som en kritiker för att identifiera eventuella felaktiga bedömningar gjorda av den primära modellen. Denna process förbättrar inte bara den övergripande prestandan utan förbättrar också de mätvärden som används för att bedöma modellens kapacitet.

OpenAI har gjort betydande framsteg på detta område, med lanseringen av en noggrant kurerad datauppsättning bestående av 800,000 XNUMX markerade domar. Varje bedömning representerar ett separat steg i att lösa matematiska problem och skapades manuellt. Detta belyser nivån av engagemang och resurser OpenAI investerar i att utveckla datauppsättningar av hög kvalitet, väcker frågor om mängden data som samlas in för andra domäner som programmering eller öppna frågor.

Utbildningen av GPT-4, OpenAIs senaste iteration av GPT serien, är redan igång. Medan RLHF-komponenten inte ingår i de aktuella experimenten, används en ren språkmodell. I synnerhet, OpenAI nämner att det finns flera versioner av GPT-4, med även den minsta versionen som kräver betydligt färre resurser för utbildning – ungefär 200 gånger mindre.

Ett spännande exempel som delas av OpenAI visar hur modellen utvärderar varje enskilt beslutssteg. I en skärmdump som ingår i inlägget flaggas fel i lösningen och ges lägsta korrekthetspoäng, markerade i rött.
Credit: OpenAI

Ett spännande exempel som delas av OpenAI visar hur modellen utvärderar varje enskilt beslutssteg. I en skärmdump som ingår i inlägget flaggas fel i lösningen och ges lägsta korrekthetspoäng, markerade i rött. Denna demonstration belyser modellens förmåga att resonera och ger värdefulla insikter i dess beslutsprocess. OpenAI har också tillhandahållit instruktioner för uppmärkningar, vilket ger möjligheter för crowdsourcers att bidra och dra nytta av sitt arbete.

As OpenAI fortsätter att tänja på gränserna för AI-forskning, deras fokus på modellresonemang och processövervakad belöningsmodellering ger nya möjligheter till förbättrade AI-förmågor. Detta senaste genombrott visar deras engagemang för att förbättra modellens prestanda och öppnar dörrar till ytterligare framsteg inom området.

Läs mer om AI:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

fler artiklar
Damir Yalalov
Damir Yalalov

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

Institutionell aptit växer mot Bitcoin ETFs mitt i volatilitet

Avslöjande genom 13F-anmälningar avslöjar anmärkningsvärda institutionella investerare som sysslar med Bitcoin ETF:er, vilket understryker en växande acceptans av ...

Lär dig mer

Straffdagen anländer: CZ:s öde hänger i balans när den amerikanska domstolen överväger DOJ:s vädjande

Changpeng Zhao är redo att dömas i en amerikansk domstol i Seattle i dag.

Lär dig mer
Gå med i vår innovativa teknikgemenskap
Läs mer
Läs mer
Donald Trumps övergång till krypto: från motståndare till förespråkare och vad det betyder för den amerikanska kryptovalutamarknaden
Företag Marknader Berättelser och recensioner Teknologi
Donald Trumps övergång till krypto: från motståndare till förespråkare och vad det betyder för den amerikanska kryptovalutamarknaden
Maj 10, 2024
Layer3 lanserar L3-token i sommar och allokerar 51 % av det totala utbudet till gemenskapen
Marknader Nyhetsrapport Teknologi
Layer3 lanserar L3-token i sommar och allokerar 51 % av det totala utbudet till gemenskapen
Maj 10, 2024
Edward Snowdens sista varning till Bitcoin-utvecklare: "Gör sekretess till en prioritet på protokollnivå eller riskera att förlora den
Marknader Säkerhet Wiki Mjukvara Berättelser och recensioner Teknologi
Edward Snowdens sista varning till Bitcoin-utvecklare: "Gör sekretess till en prioritet på protokollnivå eller riskera att förlora den
Maj 10, 2024
Optimismdrivet Ethereum Layer 2 Network Mint lanserar sitt huvudnät den 15 maj
Nyhetsrapport Teknologi
Optimismdrivet Ethereum Layer 2 Network Mint lanserar sitt huvudnät den 15 maj
Maj 10, 2024