Novice Tehnologija
Junij 01, 2023

OpenAI: Novo procesno nadzorovano modeliranje nagrajevanja izboljšuje razmišljanje AI

Na kratko

OpenAIProcesno nadzorovano modeliranje nagrajevanja (PRM) je namenjeno ovrednotenju vmesnih korakov in sklepanja modelov AI, kar vodi do izboljšane učinkovitosti in meritev.

OpenAI je ponovno pritegnilo pozornost skupnosti AI s svojim revolucionarnim delom na področju procesno nadzorovanega modeliranja nagrajevanja (PRM). Namen tega inovativnega pristopa je oceniti vmesne korake in sklepanje modelov AI, kar vodi do izboljšane učinkovitosti in meritev.

OpenAI: Novo procesno nadzorovano modeliranje nagrajevanja izboljšuje razmišljanje AI
Zasluge: Metaverse Post (mpost.io)
priporočena: ChatGPT Z lažjim trgovanjem lahko spremeni Wall Street

Pri tradicionalnem učenju s krepitvijo iz človeških povratnih informacij (RLHF), so povratne informacije o modelu običajno podane na podlagi celotnega rezultata, ki ga ustvari model. vendar OpenAINjegova nova raziskava raziskuje zamisel o vrednotenju posameznih korakov in procesov razmišljanja, ki jih izvaja model. S tem lahko zagotovijo natančnejše ocene in povratne informacije.

Da bi rešili to težavo, OpenAI izbrane matematične probleme, ki so zahtevali več dejanj. Ločeno Model je bil usposobljen za učinkovito ovrednotenje vmesnih korakov, pri čemer deluje kot kritik za prepoznavanje morebitnih napačnih sodb primarnega modela. Ta postopek ne izboljša samo splošne zmogljivosti, ampak tudi izboljša meritve, ki se uporabljajo za oceno zmogljivosti modela.

OpenAI je naredil pomemben korak na tem področju z izdajo natančno kuriranega nabora podatkov, ki ga sestavljajo 800,000 označenih sodb. Vsaka sodba predstavlja ločeno stopnjo pri reševanju matematičnih problemov in je ročno izdelana. To poudarja stopnjo predanosti in virov OpenAI vlaga v razvoj visokokakovostnih naborov podatkov, ki odpira vprašanja o količini zbranih podatkov za druga področja, kot so programiranje ali odprta vprašanja.

Usposabljanje GPT-4, OpenAInajnovejša ponovitev GPT serije, že dobro poteka. Čeprav komponenta RLHF ni vključena v trenutne poskuse, se uporablja čisti jezikovni model. Zlasti OpenAI omenja, da obstaja več različic GPT-4, pri čemer celo najmanjša različica zahteva znatno manj virov za usposabljanje – približno 200-krat manj.

Zanimiv primer, ki ga je delil OpenAI prikazuje, kako model ocenjuje vsak posamezen korak odločitve. Na posnetku zaslona, ​​ki je vključen v objavo, so napake v rešitvi označene z zastavico in podana najnižja ocena pravilnosti, označena z rdečo.
Zasluge: OpenAI

Zanimiv primer, ki ga je delil OpenAI prikazuje, kako model ocenjuje vsak posamezen korak odločitve. Na posnetku zaslona, ​​ki je vključen v objavo, so napake v rešitvi označene z zastavico in podana najnižja ocena pravilnosti, označena z rdečo. Ta predstavitev poudarja sposobnost razmišljanja modela in zagotavlja dragocen vpogled v njegov proces odločanja. OpenAI je zagotovil tudi navodila za oznake, ki ponujajo možnosti množičnim virom, da prispevajo in izkoristijo svoje delo.

As OpenAI še naprej premika meje raziskav umetne inteligence, njihova osredotočenost na sklepanje modelov in procesno nadzorovano modeliranje nagrajevanja prinaša nove možnosti za izboljšane zmogljivosti umetne inteligence. Ta najnovejši preboj prikazuje njihovo predanost izboljšanju zmogljivosti modela in odpira vrata nadaljnjemu napredku na tem področju.

Preberite več o AI:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

več člankov
Damir Yalalov
Damir Yalalov

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

Institucionalni apetit raste proti Bitcoin ETF-jem sredi volatilnosti

Razkritja prek vlog 13F razkrivajo pomembne institucionalne vlagatelje, ki se ukvarjajo z Bitcoin ETF, kar poudarja vse večje sprejemanje ...

Več o tem

Prihaja dan obsodbe: usoda CZ visi na ravnovesju, ko ameriško sodišče obravnava tožbeni razlog DOJ

Changpeng Zhao se danes sooča z obsodbo na ameriškem sodišču v Seattlu.

Več o tem
Pridružite se naši inovativni tehnološki skupnosti
Preberi več
Preberi več
Prehod Donalda Trumpa na kripto: od nasprotnika do zagovornika in kaj to pomeni za ameriški trg kriptovalut
ŽELITE POSTATI PARTNER Prisotnost Zgodbe in ocene Tehnologija
Prehod Donalda Trumpa na kripto: od nasprotnika do zagovornika in kaj to pomeni za ameriški trg kriptovalut
Maj 10, 2024
Layer3 bo lansiral žeton L3 to poletje in 51 % celotne ponudbe namenil skupnosti
Prisotnost Novice Tehnologija
Layer3 bo lansiral žeton L3 to poletje in 51 % celotne ponudbe namenil skupnosti
Maj 10, 2024
Zadnje opozorilo Edwarda Snowdna razvijalcem bitcoinov: »Naj bo zasebnost prednostna naloga na ravni protokola ali pa tvegajte, da jo izgubite
Prisotnost Varnost Wiki Software Zgodbe in ocene Tehnologija
Zadnje opozorilo Edwarda Snowdna razvijalcem bitcoinov: »Naj bo zasebnost prednostna naloga na ravni protokola ali pa tvegajte, da jo izgubite
Maj 10, 2024
Omrežna kovnica Ethereum Layer 2, ki jo poganja optimizem, bo svojo glavno mrežo predstavila 15. maja
Novice Tehnologija
Omrežna kovnica Ethereum Layer 2, ki jo poganja optimizem, bo svojo glavno mrežo predstavila 15. maja
Maj 10, 2024
CRYPTOMERIA LABS PTE. LTD.