15. března 2023

GPT-4 Překonává GPT-3.5 Všeobecně o různých studijních měřítcích

Zveřejněno: 15. března 2023 v 7:15 Aktualizováno: 15. března 2023 v 7:15

Stručně

Projekt GPT-4 dosáhl vyššího prahu než GPT-3.5 v různých měřítcích.

Jde o velký úspěch, protože ukazuje, že stroje jsou nejen schopné lidské inteligence, ale mohou nás také překonat, což vyvolává otázky o budoucnosti umělé inteligence a jejím potenciálním dopadu na trh práce.

GPT-4 je výrazně překonána nejmodernějšími (SOTA) modely, včetně těch, které používají další tréninkové protokoly nebo design specifický pro benchmark, stejně jako stávající velké jazykové modely.

Projekt GPT-4 dosáhl vyššího skóre než GPT-3.5 v různých měřítcích. To je pro stroje zásadní průlom, protože dokazuje, že nyní dokážou nejen řešit problémy, pro které byly původně navrženy, ale také lépe než studenti vysokých škol.

GPT-4 překoná GPT-3.5 plošně na různých studijních měřítcích

Při pohledu na tento výsledek je třeba vzít v úvahu několik věcí. Za prvé, GPT-4 nebyla pro tyto zkoušky poskytnuta žádná zvláštní příprava. Postupovalo se s využitím nejnovějších veřejně dostupných testů (v případě olympiád a otázek AP s bezplatnými odpověďmi) nebo zakoupením cvičných zkoušek na období 2022–2023. Za druhé je důležité poznamenat, že GPT-4Výkon nemusí nutně odrážet schopnosti lidí, kteří testují, protože funguje na jiném souboru principů a algoritmů.

To je velký úspěch jako ukazuje že stroje jsou nejen schopné lidské inteligence, ale mohou nás také překonat. To dláždí cestu pro budoucnost, kde stroje mohou přebírat stále složitější úkoly, což nakonec povede k budoucnosti, ve které nám mohou pomáhat v našem každodenním životě.

Projekt GPT-4Schopnost překonat lidi v určitých úkolech vyvolává otázky o budoucnosti umělá inteligence a jeho potenciální dopad na trh práce. Zdůrazňuje také potřebu pokračujícího výzkumu a vývoje v této oblasti, aby bylo zajištěno, že AI je využívána eticky a zodpovědně.

Čtěte více: 5+ nejočekávanějších modelů umělé inteligence typu text-to-Image z roku 2023

GPT-4, například složí simulovanou advokátní zkoušku se skóre mezi 10 % nejlepších účastníků testu; GPT-3Skóre 5 bylo v dolních 10 %. Toto výrazné zlepšení v GPT-4Výkon je způsoben většími tréninkovými daty a vylepšenou architekturou. Očekává se, že bude mít širokou škálu aplikací v různých oblastech, včetně zpracování přirozeného jazyka a automatizovaného psaní.

GPT-4 vykazuje výkon na lidské úrovni u většiny těchto odborných a akademických zkoušek. Je pozoruhodné, že prošel simulovanou verzí zkoušky Uniform Bar Examination se skóre v 10 % nejlepších účastníků testu. Zdá se, že schopnosti modelu při zkouškách pramení především z předtréninkového procesu a nejsou významně ovlivněny RLHF. U otázek s výběrem z více odpovědí obojí základ GPT-4 model a model RLHF fungovaly v průměru stejně dobře mezi vývojáři testované zkoušky.

Většina nejmodernějších (SOTA) modelů, včetně těch, které mohou používat další tréninkové protokoly nebo design specifický pro benchmark, stejně jako stávající velké jazykové modely, výrazně překonávají GPT-4.

GPT-4výkon z hlediska akademických standardů. Vývojáři kontrastují GPT-4 s nejlepší SOTA pro LM vyhodnocenou několika ranami a také nejlepší SOTA s tréninkem specifickým pro benchmark. S výjimkou DROP, GPT-4 překonává všechny současné LM ve všech benchmarcích a SOTA díky školení specifickému pro benchmark.

Interně vývojáři využívají GPT-4, která měla významný dopad na aktivity, jako je programování, prodej, podpora a moderování obsahu. Nyní probíhá druhá fáze naší metody zarovnání, protože ji vývojáři používají k pomoci lidem při kontrole výsledků AI.

Datový soubor MMLU (Massive Multi-Task Language Understanding) obsahuje otázky z velmi široké škály témat o porozumění jazyku v různých úlohách (pokrývajících 57 domén, včetně matematiky, biologie, práva, společenských a humanitních věd atd.). Na otázku jsou čtyři možné odpovědi, z nichž jedna je správná. To znamená, že náhodné hádání ukazuje výsledek 25 % správných odpovědí. Příklady otázek a jejich obtížnosti naleznete na obrázku níže. Průměrná osoba-marker (to znamená, že to není vědec, ani profesor – obyčejný člověk, který svítí jako značka) správně odpoví na 35 % otázek; experti však mohou dosáhnout skóre +/- 90 %.

Výkon GPT-4 v řadě jazyků ve srovnání s dřívějšími modely v angličtině na MMLU. GPT-4 převyšuje výkon v angličtině existujících jazykových modelů pro velkou většinu zkoumaných jazyků, včetně jazyků s nízkými zdroji, jako je lotyština, velština a svahilština.

Čtěte více: 5 důvodů, proč používat Bing přes Google s umělou inteligencí

Původně byl celý datový soubor v angličtině. Co když jsou ale otázky a odpovědi přeloženy do jiných jazyků, zejména těch méně běžných? Bude jim model nějak fungovat? V tomto testu byla pro překlad použita služba Microsoft Azure Translate. Překlady nejsou dokonalé; v některých případech dojde ke ztrátě důležitých informací. Nicméně i v tomto případě platí GPT-4 funguje dobře v jiných jazycích. V přeložených verzích MMLU GPT-4 překonává úroveň angličtiny jiných velkých modelů (včetně Google) o 24 z 26 zkoumaných jazyků.

A co víc, GPT-4 funguje lépe ve vzácných jazycích než ChatGPT udělal v angličtině (ChatGPT dosáhl skóre 70.1 %, zatímco skóre nového modelu pro thajštinu bylo 71.8 %). Skóre v testu z angličtiny bylo nejvyšší, s GPT-4 výkon o 10 % lepší než ostatní modely, včetně největšího PaLM od Googlu. Dosáhla skóre 86.4 %, zatímco skupina expertů — 90 %.

V létě 2023 by umělá inteligence mohla dosáhnout nové úrovně výkonu díky ChatGPT, chatbot, který používá GPT-4 algoritmus a překoná GPT-3 faktorem 570. Přispívají k tomu různé prvky ChatGPT's úspěch, včetně jeho designu, aby byl více "lidský" a jeho použití nejmodernější dolování dat a zpracování přirozeného jazyka ke zvýšení jeho účinnosti a přesnosti.
Microsoft a OpenAI v lednu oznámili obnovení spolupráce a plány pro vyhledávání na Bingu, které zavede funkce vyhledávání vylepšené AI. Velmi sofistikované GPTNáhrada modelu 3.5, GPT4, byl právě spuštěna má potenciál výrazně zlepšit schopnost vyhledávání Bing porozumět dotazům v přirozeném jazyce a poskytovat přesnější výsledky. Je dobré mít dobrý záložní plán pro případ, že by se něco pokazilo.

Přečtěte si další související novinky:

Tagy:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.

Další články

Damir Yalalov