GPT-4 Překonává GPT-3.5 Všeobecně o různých studijních měřítcích
Stručně
Projekt GPT-4 dosáhl vyššího prahu než GPT-3.5 v různých měřítcích.
Jde o velký úspěch, protože ukazuje, že stroje jsou nejen schopné lidské inteligence, ale mohou nás také překonat, což vyvolává otázky o budoucnosti umělé inteligence a jejím potenciálním dopadu na trh práce.
GPT-4 je výrazně překonána nejmodernějšími (SOTA) modely, včetně těch, které používají další tréninkové protokoly nebo design specifický pro benchmark, stejně jako stávající velké jazykové modely.
Projekt GPT-4 dosáhl vyššího skóre než GPT-3.5 v různých měřítcích. To je pro stroje zásadní průlom, protože dokazuje, že nyní dokážou nejen řešit problémy, pro které byly původně navrženy, ale také lépe než studenti vysokých škol.
Při pohledu na tento výsledek je třeba vzít v úvahu několik věcí. Za prvé, GPT-4 nebyla pro tyto zkoušky poskytnuta žádná zvláštní příprava. Postupovalo se s využitím nejnovějších veřejně dostupných testů (v případě olympiád a otázek AP s bezplatnými odpověďmi) nebo zakoupením cvičných zkoušek na období 2022–2023. Za druhé je důležité poznamenat, že GPT-4Výkon nemusí nutně odrážet schopnosti lidí, kteří testují, protože funguje na jiném souboru principů a algoritmů.
To je velký úspěch jako ukazuje že stroje jsou nejen schopné lidské inteligence, ale mohou nás také překonat. To dláždí cestu pro budoucnost, kde stroje mohou přebírat stále složitější úkoly, což nakonec povede k budoucnosti, ve které nám mohou pomáhat v našem každodenním životě.
GPT-4, například složí simulovanou advokátní zkoušku se skóre mezi 10 % nejlepších účastníků testu; GPT-3Skóre 5 bylo v dolních 10 %. Toto výrazné zlepšení v GPT-4Výkon je způsoben většími tréninkovými daty a vylepšenou architekturou. Očekává se, že bude mít širokou škálu aplikací v různých oblastech, včetně zpracování přirozeného jazyka a automatizovaného psaní.
Většina nejmodernějších (SOTA) modelů, včetně těch, které mohou používat další tréninkové protokoly nebo design specifický pro benchmark, stejně jako stávající velké jazykové modely, výrazně překonávají GPT-4.
Interně vývojáři využívají GPT-4, která měla významný dopad na aktivity, jako je programování, prodej, podpora a moderování obsahu. Nyní probíhá druhá fáze naší metody zarovnání, protože ji vývojáři používají k pomoci lidem při kontrole výsledků AI.
Datový soubor MMLU (Massive Multi-Task Language Understanding) obsahuje otázky z velmi široké škály témat o porozumění jazyku v různých úlohách (pokrývajících 57 domén, včetně matematiky, biologie, práva, společenských a humanitních věd atd.). Na otázku jsou čtyři možné odpovědi, z nichž jedna je správná. To znamená, že náhodné hádání ukazuje výsledek 25 % správných odpovědí. Příklady otázek a jejich obtížnosti naleznete na obrázku níže. Průměrná osoba-marker (to znamená, že to není vědec, ani profesor – obyčejný člověk, který svítí jako značka) správně odpoví na 35 % otázek; experti však mohou dosáhnout skóre +/- 90 %.
Původně byl celý datový soubor v angličtině. Co když jsou ale otázky a odpovědi přeloženy do jiných jazyků, zejména těch méně běžných? Bude jim model nějak fungovat? V tomto testu byla pro překlad použita služba Microsoft Azure Translate. Překlady nejsou dokonalé; v některých případech dojde ke ztrátě důležitých informací. Nicméně i v tomto případě platí GPT-4 funguje dobře v jiných jazycích. V přeložených verzích MMLU GPT-4 překonává úroveň angličtiny jiných velkých modelů (včetně Google) o 24 z 26 zkoumaných jazyků.
A co víc, GPT-4 funguje lépe ve vzácných jazycích než ChatGPT udělal v angličtině (ChatGPT dosáhl skóre 70.1 %, zatímco skóre nového modelu pro thajštinu bylo 71.8 %). Skóre v testu z angličtiny bylo nejvyšší, s GPT-4 výkon o 10 % lepší než ostatní modely, včetně největšího PaLM od Googlu. Dosáhla skóre 86.4 %, zatímco skupina expertů — 90 %.
- V létě 2023 by umělá inteligence mohla dosáhnout nové úrovně výkonu díky ChatGPT, chatbot, který používá GPT-4 algoritmus a překoná GPT-3 faktorem 570. Přispívají k tomu různé prvky ChatGPT's úspěch, včetně jeho designu, aby byl více "lidský" a jeho použití nejmodernější dolování dat a zpracování přirozeného jazyka ke zvýšení jeho účinnosti a přesnosti.
- Microsoft a OpenAI v lednu oznámili obnovení spolupráce a plány pro vyhledávání na Bingu, které zavede funkce vyhledávání vylepšené AI. Velmi sofistikované GPTNáhrada modelu 3.5, GPT4, byl právě spuštěna má potenciál výrazně zlepšit schopnost vyhledávání Bing porozumět dotazům v přirozeném jazyce a poskytovat přesnější výsledky. Je dobré mít dobrý záložní plán pro případ, že by se něco pokazilo.
Přečtěte si další související novinky:
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.
Další článkyDamir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.