Nieuwsverslag Technologie
01 June 2023

OpenAI: Nieuwe procesgestuurde beloningsmodellering verbetert AI-redenering

In het kort

OpenAIDe procesgestuurde beloningsmodellering (PRM) van het bedrijf heeft tot doel de tussenstappen en redenering van AI-modellen te evalueren, wat leidt tot verbeterde prestaties en statistieken.

OpenAI heeft opnieuw de aandacht van de AI-gemeenschap getrokken met hun baanbrekende werk op het gebied van procesgestuurde beloningsmodellering (PRM's). Deze innovatieve aanpak heeft tot doel de tussenstappen en de redenering van AI-modellen te evalueren, wat leidt tot verbeterde prestaties en statistieken.

OpenAI: Nieuwe procesgestuurde beloningsmodellering verbetert het AI-redeneren
credit: Metaverse Post (mpost.io)
Aanbevolen: ChatGPT Zou Wall Street kunnen veranderen door handel gemakkelijker te maken

Bij traditionele bekrachtiging leren van menselijke feedback (RLHF), wordt modelfeedback doorgaans gegeven op basis van het algehele resultaat dat door het model wordt gegenereerd. Echter, OpenAI's nieuwe onderzoek onderzoekt het idee van het evalueren van de individuele stappen en redeneerprocessen die door het model worden ondernomen. Door dit te doen, kunnen ze nauwkeuriger beoordelingen en feedback geven.

Om dit probleem aan te pakken, OpenAI geselecteerde wiskundige problemen waarvoor meerdere acties nodig waren. Een aparte model werd getraind om de tussenliggende stappen effectief te evalueren, en trad op als criticus om eventuele foutieve beoordelingen van het primaire model te identificeren. Dit proces verbetert niet alleen de algehele prestaties, maar verbetert ook de statistieken die worden gebruikt om de mogelijkheden van het model te beoordelen.

OpenAI heeft aanzienlijke vooruitgang geboekt op dit gebied, met de release van een zorgvuldig samengestelde dataset bestaande uit 800,000 gemarkeerde oordelen. Elk oordeel vertegenwoordigt een afzonderlijke fase in het oplossen van wiskundige problemen en is handmatig gemaakt. Dit benadrukt het niveau van toewijding en middelen OpenAI investeert in de ontwikkeling van hoogwaardige datasets, wat vragen oproept over de hoeveelheid verzamelde gegevens voor andere domeinen, zoals programmeren of open vragen.

De training van GPT-4, OpenAI's nieuwste versie van de GPT serie, is al in volle gang. Hoewel de RLHF-component niet is opgenomen in de huidige experimenten, wordt een puur taalmodel gebruikt. Opmerkelijk, OpenAI vermeldt dat er meerdere versies van zijn GPT-4, waarbij zelfs de kleinste versie aanzienlijk minder middelen nodig heeft voor training - ongeveer 200 keer minder.

Een intrigerend voorbeeld gedeeld door OpenAI laat zien hoe het model elke individuele beslissingsstap evalueert. In een screenshot in het bericht worden fouten in de oplossing gemarkeerd en krijgen ze de laagste correctheidsscore, rood gemarkeerd.
credit: OpenAI

Een intrigerend voorbeeld gedeeld door OpenAI laat zien hoe het model evalueert elke individuele beslissingsstap. In een screenshot in het bericht worden fouten in de oplossing gemarkeerd en krijgen ze de laagste correctheidsscore, rood gemarkeerd. Deze demonstratie benadrukt het redeneervermogen van het model en biedt waardevolle inzichten in het besluitvormingsproces. OpenAI heeft ook instructies gegeven voor markeringen, waardoor crowdsourcers de mogelijkheid krijgen om bij te dragen en te profiteren van hun werk.

As OpenAI blijft de grenzen van AI-onderzoek verleggen, hun focus op modelredenering en procesgestuurde beloningsmodellering brengt nieuwe mogelijkheden voor verbeterde AI-mogelijkheden. Deze nieuwste doorbraak toont hun toewijding aan het verbeteren van de modelprestaties en opent deuren naar verdere vooruitgang in het veld.

Lees meer over AI:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

De institutionele belangstelling groeit richting Bitcoin ETF’s te midden van volatiliteit

Uit openbaarmakingen via 13F-registraties blijkt dat opmerkelijke institutionele beleggers zich bezighouden met Bitcoin ETF's, wat een groeiende acceptatie onderstreept van ...

Meer weten

De dag van de veroordeling breekt aan: het lot van CZ hangt in evenwicht terwijl de Amerikaanse rechtbank het pleidooi van DOJ in overweging neemt

Changpeng Zhao staat vandaag op het punt te worden veroordeeld door een Amerikaanse rechtbank in Seattle.

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
De verschuiving van Donald Trump naar crypto: van tegenstander naar pleitbezorger, en wat dit betekent voor de Amerikaanse cryptocurrency-markt
Business Markten Verhalen en recensies Technologie
De verschuiving van Donald Trump naar crypto: van tegenstander naar pleitbezorger, en wat dit betekent voor de Amerikaanse cryptocurrency-markt
10 mei 2024
Layer3 lanceert deze zomer het L3-token en wijst 51% van het totale aanbod toe aan de gemeenschap
Markten Nieuwsverslag Technologie
Layer3 lanceert deze zomer het L3-token en wijst 51% van het totale aanbod toe aan de gemeenschap
10 mei 2024
Edward Snowdens laatste waarschuwing aan Bitcoin-ontwikkelaars: “Maak van privacy een prioriteit op protocolniveau, anders loop je het risico deze te verliezen
Markten Security Wiki Software Verhalen en recensies Technologie
Edward Snowdens laatste waarschuwing aan Bitcoin-ontwikkelaars: “Maak van privacy een prioriteit op protocolniveau, anders loop je het risico deze te verliezen
10 mei 2024
Door optimisme aangedreven Ethereum Layer 2 Network Mint lanceert zijn mainnet op 15 mei
Nieuwsverslag Technologie
Door optimisme aangedreven Ethereum Layer 2 Network Mint lanceert zijn mainnet op 15 mei
10 mei 2024