Novinová správa Technológia
March 15, 2023

GPT-4 prekonáva GPT-3.5 Všeobecne o rôznych študijných štandardoch

Stručne

GPT-4 dosiahol vyšší prah stupňa ako GPT-3.5 na rôznych benchmarkoch.

Ide o veľký úspech, pretože ukazuje, že stroje sú nielen schopné ľudskej inteligencie, ale môžu nás aj prekonať, čo vyvoláva otázky o budúcnosti AI a jej potenciálnom vplyve na trh práce.

GPT-4 je výrazne prekonaný najmodernejšími (SOTA) modelmi, vrátane tých, ktoré využívajú dodatočné školiace protokoly alebo dizajn špecifický pre benchmark, ako aj existujúce veľké jazykové modely.

GPT-4 dosiahol vyššie skóre ako GPT-3.5 na rôznych benchmarkoch. Ide o veľký prielom pre stroje, pretože to dokazuje, že teraz dokážu nielen riešiť problémy, na ktoré boli pôvodne navrhnuté, ale dokážu to aj lepšie ako študenti vysokých škôl.

GPT-4 prekonáva GPT-3.5 plošne na rôznych študijných štandardoch

Pri pohľade na tento výsledok je potrebné vziať do úvahy niekoľko vecí. Po prvé, GPT-4 nezískal žiadne špecifické školenie na tieto skúšky. Postupovalo sa pomocou najnovších verejne dostupných testov (v prípade olympiád a otázok s bezplatnými odpoveďami AP) alebo zakúpením cvičných skúšok na roky 2022 – 2023. Po druhé, je dôležité poznamenať, že GPT-4Výkon nemusí nevyhnutne odrážať schopnosti ľudí, ktorí testujú, pretože funguje na inom súbore princípov a algoritmov.

Toto je veľký úspech, pretože ukazuje že stroje sú nielen schopné ľudskej inteligencie, ale môžu nás aj prekonať. To pripravuje pôdu pre budúcnosť, v ktorej môžu stroje vykonávať čoraz zložitejšie úlohy, čo v konečnom dôsledku povedie k budúcnosti, v ktorej nám môžu pomáhať v našom každodennom živote.

GPT-4Schopnosť prekonať ľudí v určitých úlohách vyvoláva otázky o budúcnosti umelá inteligencia a jeho potenciálny vplyv na trh práce. Zdôrazňuje tiež potrebu pokračujúceho výskumu a vývoja v tejto oblasti s cieľom zabezpečiť, aby sa umelá inteligencia používala eticky a zodpovedne.
Prečítajte si viac: 5+ najočakávanejších modelov umelej inteligencie s prevodom textu na obrázok v roku 2023

GPT-4, napríklad zloží simulovanú advokátsku skúšku so skóre medzi 10 % najlepších účastníkov testu; GPT-3Skóre 5 sa nachádzalo v spodných 10 %. Toto výrazné zlepšenie v GPT-4Výkon je spôsobený väčšími tréningovými dátami a vylepšenou architektúrou. Očakáva sa, že bude mať širokú škálu aplikácií v rôznych oblastiach vrátane spracovania prirodzeného jazyka a automatizovaného písania.

 
GPT-4 pri väčšine týchto odborných a akademických skúšok vykazuje výkon na úrovni ľudí. Je pozoruhodné, že prešiel simulovanou verziou skúšky Uniform Bar Examination so skóre v 10 % najlepších účastníkov testu. Zdá sa, že schopnosti modelu na skúškach vychádzajú predovšetkým z predtréningového procesu a nie sú významne ovplyvnené RLHF. Pri otázkach s možnosťou výberu z viacerých odpovedí základ GPT-4 model a model RLHF fungovali v priemere rovnako dobre medzi vývojármi testovanej skúšky.

Väčšina najmodernejších modelov (SOTA) vrátane tých, ktoré môžu využívať dodatočné školiace protokoly alebo dizajn špecifický pre benchmarky, ako aj existujúce veľké jazykové modely, výrazne prevyšujú o GPT-4.

GPT-4výkon z hľadiska akademických štandardov. Vývojári kontrastujú GPT-4 s najlepšou SOTA pre niekoľko výstrelov s hodnotením LM, ako aj s najlepšou SOTA s tréningom špecifickým pre benchmark. S výnimkou DROP, GPT-4 prekonáva všetky súčasné LM vo všetkých benchmarkoch a SOTA s tréningom špecifickým pre benchmark.

Interne vývojári využívajú GPT-4, ktorá mala významný vplyv na aktivity ako programovanie, predaj, podpora a moderovanie obsahu. Teraz prebieha druhá fáza našej metódy zarovnania, pretože ju vývojári používajú na pomoc ľuďom pri kontrole výsledkov AI.

Dátový súbor MMLU (Massive Multi-Task Language Understanding) obsahuje otázky z veľmi širokého spektra tém o porozumení jazyka v rôznych úlohách (zahŕňajúcich 57 oblastí vrátane matematiky, biológie, práva, spoločenských a humanitných vied atď.). Na otázku sú štyri možné odpovede, z ktorých jedna je správna. To znamená, že náhodné hádanie ukazuje výsledok 25% správnych odpovedí. Príklady otázok a ich ťažkosti nájdete na obrázku nižšie. Priemerná osoba-marker (to znamená, že to nie je vedec, nie profesor – obyčajný človek, ktorý žiari ako značka) odpovie správne na 35 % otázok; experti však môžu dosiahnuť skóre +/- 90 %.

Výkonnosť GPT-4 v rôznych jazykoch v porovnaní s predchádzajúcimi modelmi v angličtine na MMLU. GPT-4 prevyšuje výkonnosť existujúcich jazykových modelov v anglickom jazyku pre veľkú väčšinu skúmaných jazykov vrátane jazykov s nízkymi zdrojmi, ako je lotyština, waleština a svahilčina.
Prečítajte si viac: 5 dôvodov, prečo používať Bing cez Google poháňaný AI

Pôvodne bol celý súbor údajov v angličtine. Čo ak sa však otázky a odpovede preložia do iných jazykov, najmä tých menej bežných? Bude im model nejako fungovať? V tomto teste bola na preklad použitá služba Microsoft Azure Translate. Preklady nie sú dokonalé; v niektorých prípadoch dôjde k strate dôležitých informácií. Avšak aj v tomto prípade platí GPT-4 funguje dobre v iných jazykoch. V preložených verziách MMLU GPT-4 prevyšuje úroveň angličtiny iných veľkých modelov (vrátane Google) o 24 z 26 skúmaných jazykov.

Čo je viac, GPT-4 funguje lepšie v zriedkavých jazykoch ako ChatGPT urobil po anglicky (ChatGPT dosiahol skóre 70.1 %, zatiaľ čo skóre nového modelu pre thajčinu bolo 71.8 %). Skóre v teste z angličtiny bolo najvyššie, s GPT-4 výkon o 10 % lepší ako ostatné modely vrátane najväčšieho PaLM od Google. Dosiahla skóre 86.4 %, zatiaľ čo skupina expertov – 90 %.

  • Do leta 2023 mohla AI dosiahnuť novú úroveň výkonu vďaka ChatGPT, chatbot, ktorý používa GPT-4 algoritmus a prekonáva GPT-3 faktorom 570. Prispievajú k tomu rôzne prvky ChatGPTÚspech spoločnosti vrátane jej dizajnu, ktorý má byť viac „podobný človeku“, a využitia najmodernejšieho dolovania údajov a spracovania prirodzeného jazyka na zvýšenie jeho účinnosti a presnosti.
  • Microsoft a OpenAI v januári oznámili obnovenie spolupráce a plány na vyhľadávanie v Bingu s cieľom prijať možnosti vyhľadávania vylepšeného AI. Veľmi sofistikované GPTnáhrada za model 3.5, GPT4, bola práve spustenáa má potenciál výrazne zlepšiť schopnosť vyhľadávania Bing porozumieť dopytom v prirodzenom jazyku a poskytnúť presnejšie výsledky. Je dobré mať dobrý záložný plán pre prípad, že by sa niečo pokazilo.

Prečítajte si ďalšie súvisiace novinky:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Inštitucionálny apetít rastie smerom k bitcoinovým ETF uprostred volatility

Zverejnenia prostredníctvom podaní 13F odhaľujú pozoruhodných inštitucionálnych investorov, ktorí sa venujú bitcoinovým ETF, čo podčiarkuje rastúcu akceptáciu ...

vedieť viac

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Injective spája svoje sily s AltLayer, aby priniesla bezpečnosť pri prestavbe inEVM
firmy Novinová správa Technológia
Injective spája svoje sily s AltLayer, aby priniesla bezpečnosť pri prestavbe inEVM
Môže 3, 2024
Masa sa spojila so spoločnosťou Teller, aby predstavila fond pôžičiek MASA a umožnila požičiavanie USDC na základni
trhy Novinová správa Technológia
Masa sa spojila so spoločnosťou Teller, aby predstavila fond pôžičiek MASA a umožnila požičiavanie USDC na základni
Môže 3, 2024
Velodrome uvádza na trh beta verziu Superchain v najbližších týždňoch a rozširuje sa o blockchainy OP Stack Layer 2
trhy Novinová správa Technológia
Velodrome uvádza na trh beta verziu Superchain v najbližších týždňoch a rozširuje sa o blockchainy OP Stack Layer 2
Môže 3, 2024
CARV oznamuje partnerstvo so spoločnosťou Aethir s cieľom decentralizovať svoju dátovú vrstvu a distribuovať odmeny
firmy Novinová správa Technológia
CARV oznamuje partnerstvo so spoločnosťou Aethir s cieľom decentralizovať svoju dátovú vrstvu a distribuovať odmeny
Môže 3, 2024
CRYPTOMERIA LABS PTE. LTD.