Nyheds rapport Teknologier
01. Juni, 2023

OpenAI: Ny procesovervåget belønningsmodellering forbedrer AI-ræsonnement

Kort sagt

OpenAI's procesovervågede belønningsmodellering (PRM) har til formål at evaluere de mellemliggende trin og ræsonnementer i AI-modeller, hvilket fører til forbedret ydeevne og målinger.

OpenAI har igen fanget opmærksomheden fra AI-fællesskabet med deres banebrydende arbejde inden for procesovervåget belønningsmodellering (PRM'er). Denne innovative tilgang har til formål at evaluere de mellemliggende trin og ræsonnement i AI-modeller, hvilket fører til forbedret ydeevne og målinger.

OpenAI: Ny procesovervåget belønningsmodellering forbedrer AI-ræsonnement
Credit: Metaverse Post (mpost.io)
Anbefales: ChatGPT Kunne ændre Wall Street ved at gøre handel lettere

I traditionel forstærkningslæring fra menneskelig feedback (RLHF), gives modelfeedback typisk baseret på det overordnede resultat genereret af modellen. Imidlertid, OpenAI's nye forskning udforsker ideen om at evaluere de individuelle trin og ræsonnementsprocesser, som modellen udfører. Ved at gøre det kan de give mere finmaskede vurderinger og feedback.

For at løse dette problem, OpenAI udvalgte matematiske problemer, der krævede flere handlinger. En separat model blev trænet til effektivt at evaluere de mellemliggende trin og fungerede som en kritiker for at identificere eventuelle fejlagtige vurderinger foretaget af den primære model. Denne proces forbedrer ikke kun den overordnede ydeevne, men forbedrer også de målinger, der bruges til at vurdere modellens muligheder.

OpenAI har gjort betydelige fremskridt på dette område, med frigivelsen af ​​et omhyggeligt kurateret datasæt bestående af 800,000 markerede domme. Hver dom repræsenterer et separat trin i løsningen af ​​matematiske problemer og blev oprettet manuelt. Dette fremhæver niveauet af dedikation og ressourcer OpenAI investerer i at udvikle datasæt af høj kvalitet, rejser spørgsmål om mængden af ​​data indsamlet for andre domæner såsom programmering eller åbne spørgsmål.

Uddannelsen af GPT-4, OpenAI's seneste iteration af GPT serie, er allerede godt i gang. Mens RLHF-komponenten ikke er inkorporeret i de nuværende eksperimenter, anvendes en ren sprogmodel. Især OpenAI nævner, at der findes flere versioner af GPT-4, med selv den mindste version, der kræver væsentligt færre ressourcer til træning - cirka 200 gange mindre.

Et spændende eksempel delt af OpenAI viser, hvordan modellen evaluerer hvert enkelt beslutningstrin. I et skærmbillede inkluderet i indlægget er fejl i løsningen markeret og givet den laveste korrekthedsscore, fremhævet med rødt.
Credit: OpenAI

Et spændende eksempel delt af OpenAI viser, hvordan modellen evaluerer hvert enkelt beslutningstrin. I et skærmbillede inkluderet i indlægget er fejl i løsningen markeret og givet den laveste korrekthedsscore, fremhævet med rødt. Denne demonstration fremhæver modellens evne til at ræsonnere og giver værdifuld indsigt i dens beslutningsproces. OpenAI har også givet instruktioner til markeringer, hvilket giver mulighed for crowdsourcere at bidrage og drage fordel af deres arbejde.

As OpenAI fortsætter med at skubbe grænserne for AI-forskning, deres fokus på modelbegrundelse og procesovervåget belønningsmodellering giver nye muligheder for forbedrede AI-kapaciteter. Dette seneste gennembrud viser deres engagement i at forbedre modellens ydeevne og åbner døre til yderligere fremskridt på området.

Læs mere om AI:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Flere artikler
Damir Yalalov
Damir Yalalov

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Hot Stories
Tilmeld dig vores nyhedsbrev.
Seneste Nyheder

Institutionel appetit vokser mod Bitcoin ETF'er midt i volatilitet

Afsløringer gennem 13F-arkivering afslører bemærkelsesværdige institutionelle investorer, der dytter i Bitcoin ETF'er, hvilket understreger en voksende accept af ...

Vide mere

Straffeudmålingsdagen ankommer: CZ's skæbne hænger i balance, da amerikansk domstol overvejer DOJ's anbringende

Changpeng Zhao står klar til at blive dømt ved en amerikansk domstol i Seattle i dag.

Vide mere
Tilmeld dig vores innovative teknologifællesskab
Læs mere
Læs mere
Donald Trumps skift til krypto: Fra modstander til advokat, og hvad det betyder for det amerikanske kryptovalutamarked
Forretning Markeder Historier og anmeldelser Teknologier
Donald Trumps skift til krypto: Fra modstander til advokat, og hvad det betyder for det amerikanske kryptovalutamarked
Maj 10, 2024
Layer3 lancerer L3-token denne sommer, og allokerer 51 % af det samlede udbud til Fællesskabet
Markeder Nyheds rapport Teknologier
Layer3 lancerer L3-token denne sommer, og allokerer 51 % af det samlede udbud til Fællesskabet
Maj 10, 2024
Edward Snowdens sidste advarsel til Bitcoin-udviklere: "Gør privatlivets fred til en prioritet på protokolniveau eller risiko for at miste det
Markeder Sikkerhed Wiki Software Historier og anmeldelser Teknologier
Edward Snowdens sidste advarsel til Bitcoin-udviklere: "Gør privatlivets fred til en prioritet på protokolniveau eller risiko for at miste det
Maj 10, 2024
Optimismedrevet Ethereum Layer 2 Network Mint lancerer sit hovednet den 15. maj
Nyheds rapport Teknologier
Optimismedrevet Ethereum Layer 2 Network Mint lancerer sit hovednet den 15. maj
Maj 10, 2024