Novinová správa Technológia
Júna 01, 2023

OpenAI: Nové modelovanie odmeňovania pod dohľadom procesu zlepšuje uvažovanie AI

Stručne

OpenAICieľom modelovania odmeňovania riadeného procesom (PRM) je vyhodnotiť medzikroky a zdôvodnenie modelov AI, čo vedie k zlepšeniu výkonu a metrík.

OpenAI opäť upútala pozornosť komunity AI svojou prelomovou prácou v oblasti modelovania odmien pod dohľadom (osoby so zníženou pohyblivosťou). Cieľom tohto inovatívneho prístupu je vyhodnotiť medzikroky a zdôvodnenie modelov AI, čo vedie k zlepšeniu výkonu a metrík.

OpenAI: Nové modelovanie odmeňovania pod dohľadom procesu zlepšuje uvažovanie AI
kredit: Metaverse Post (mpost.io)
Odporúčaná: ChatGPT Mohlo by zmeniť Wall Street zjednodušením obchodovania

V tradičnom posilňovaní učenia z ľudskej spätnej väzby (RLHF), spätná väzba modelu sa zvyčajne poskytuje na základe celkového výsledku generovaného modelom. však OpenAINový výskum skúma myšlienku hodnotenia jednotlivých krokov a procesov uvažovania, ktoré model vykonáva. Týmto spôsobom môžu poskytnúť jemnejšie hodnotenia a spätnú väzbu.

Ak chcete vyriešiť tento problém, OpenAI vybrané matematické problémy, ktoré si vyžadovali viacero akcií. Samostatný model bol vyškolený, aby efektívne vyhodnotil medzikroky a pôsobil ako kritik na identifikáciu akýchkoľvek chybných úsudkov primárneho modelu. Tento proces nielen zvyšuje celkový výkon, ale tiež zlepšuje metriky používané na hodnotenie schopností modelu.

OpenAI urobila v tejto oblasti významný pokrok vydaním starostlivo zostaveného súboru údajov, ktorý obsahuje 800,000 XNUMX označených rozsudkov. Každý úsudok predstavuje samostatnú etapu riešenia matematických problémov a bol vytvorený ručne. To zdôrazňuje úroveň odhodlania a zdrojov OpenAI investuje do vývoja vysokokvalitných súborov údajov, čo vyvoláva otázky o objeme údajov zozbieraných pre iné oblasti, ako je programovanie alebo otvorené otázky.

Školenie GPT-4, OpenAInajnovšia iterácia GPT séria, je už dobre rozbehnutá. Zatiaľ čo komponent RLHF nie je začlenený do súčasných experimentov, používa sa čistý jazykový model. Najmä OpenAI uvádza, že existuje viacero verzií GPT-4, pričom aj najmenšia verzia vyžaduje výrazne menej zdrojov na školenie – približne 200-krát menej.

Zaujímavý príklad zdieľaný používateľom OpenAI ukazuje, ako model hodnotí každý jednotlivý krok rozhodovania. Na snímke obrazovky zahrnutej v príspevku sú chyby v riešení označené a majú najnižšie skóre správnosti, zvýraznené červenou farbou.
kredit: OpenAI

Zaujímavý príklad zdieľaný používateľom OpenAI ukazuje, ako model hodnotí každý jednotlivý krok rozhodovania. Na snímke obrazovky zahrnutej v príspevku sú chyby v riešení označené a majú najnižšie skóre správnosti, zvýraznené červenou farbou. Táto demonštrácia zdôrazňuje schopnosť modelu uvažovať a poskytuje cenné informácie o procese rozhodovania. OpenAI poskytla aj pokyny pre značkovanie, ktoré ponúka crowdsourcerom príležitosti prispieť a profitovať z ich práce.

As OpenAI naďalej posúvajú hranice výskumu AI, ich zameranie na modelové uvažovanie a modelovanie odmeňovania pod dohľadom procesu prináša nové možnosti pre vylepšené schopnosti AI. Tento najnovší prelom dokazuje ich odhodlanie zlepšovať výkon modelu a otvára dvere k ďalšiemu pokroku v tejto oblasti.

Prečítajte si viac o AI:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Hot Stories
Pridajte sa k nášmu newsletteru.
Novinky

Inštitucionálny apetít rastie smerom k bitcoinovým ETF uprostred volatility

Zverejnenia prostredníctvom podaní 13F odhaľujú pozoruhodných inštitucionálnych investorov, ktorí sa venujú bitcoinovým ETF, čo podčiarkuje rastúcu akceptáciu ...

vedieť viac

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Posun Donalda Trumpa ku kryptomenám: od oponenta k advokátovi a čo to znamená pre americký trh s kryptomenami
firmy trhy Príbehy a recenzie Technológia
Posun Donalda Trumpa ku kryptomenám: od oponenta k advokátovi a čo to znamená pre americký trh s kryptomenami
Môže 10, 2024
Layer3 na spustenie tokenu L3 toto leto, pričom komunite pridelí 51 % celkovej ponuky
trhy Novinová správa Technológia
Layer3 na spustenie tokenu L3 toto leto, pričom komunite pridelí 51 % celkovej ponuky
Môže 10, 2024
Posledné varovanie Edwarda Snowdena pre vývojárov bitcoínov: „Urobte zo súkromia prioritu na úrovni protokolu alebo riskujte jeho stratu
trhy zabezpečenia Wiki Softvér Príbehy a recenzie Technológia
Posledné varovanie Edwarda Snowdena pre vývojárov bitcoínov: „Urobte zo súkromia prioritu na úrovni protokolu alebo riskujte jeho stratu
Môže 10, 2024
Optimizmom poháňaná sieť Ethereum Layer 2 Mint spustí svoju hlavnú sieť 15. mája
Novinová správa Technológia
Optimizmom poháňaná sieť Ethereum Layer 2 Mint spustí svoju hlavnú sieť 15. mája
Môže 10, 2024
CRYPTOMERIA LABS PTE. LTD.