Novinky Technika
Července 12, 2023

Znovu zasáhla nepřesnost AI: ChatGPT Konkurent Claude 2 propadá vědecký test přesnosti jako ostatní LLM

Stručně

Antropický propuštěn ChatGPT rival Claude 2 v úterý.

Na rozdíl od ChatGPT, Claude 2 umožňuje uživatelům nahrávat soubory s kódem, jako jsou pdf, txt a další, stejně jako shrnutí webových odkazů.

Claude 2 však propadl vědeckému testu přesnosti, který ostatní LLM jako Bard, GPT4 a StableVicuna také selhaly.

V úterý společnost Anthropic vydala Claude 2, nejnovější aktualizaci svého velkého jazykového modelu/chatbota Claude, pouhých pět měsíců po spuštění Claude.

Široce považován za impozantního konkurenta OpenAIJe ChatGPT, Beta chat Claude 2 je k použití zdarma a přichází s vylepšeními v kódování, matematice a schopnostech uvažování. 

Může také generovat delší odpovědi a lze k němu přistupovat přes API. Podle Anthropic má chatbot skóre 76 % na liště, je v 90. percentilu písemné zkoušky GRE a dokáže produkovat dokumenty s tisíci tokenů. V současné době je Claude 2 k dispozici pouze uživatelům v USA a Velké Británii

Claude 2 vs ChatGPT

Na rozdíl od ChatGPT který generuje pouze odpovědi na textové výzvy, Claude 2 má nativní funkci Files Load, která uživatelům umožňuje nahrávat soubory s kódem jako pdf, txt a csv, extrahovat a shrnout text ze souborů PDF a prezentovat informace ve formátu tabulky. Uživatelé mohou také poslat chatbotovi webový odkaz a Claude 2 shrne obsah v odkazu. 

S Claude 2 mohou uživatelé vložit až 100,000 75,000 tokenů (9,000 XNUMX slov) na výzvu, což je významný nárůst oproti předchozímu limitu XNUMX XNUMX tokenů. To znamená, že chatbot nyní může zpracovávat obrovské objemy technické dokumentace a dokonce i celé knihy. V porovnání, OpenAIJe GPT-4 model poskytuje pouze kontextový limit 8,000 tokenyse samostatným rozšířeným modelem, který pojme až 32,000 8,000 tokenů pro specifické případy použití, na rozdíl od modelu s XNUMX XNUMX tokeny.

Sully Omar, spoluzakladatel agent AI, Cognosys.ai, řekl, že Claude 2 je „levnější a rychlejší než GPT4” i když s mírným zpožděním ve výstupním výkonu.

Claude 2 však podporuje pouze nejrozšířenější jazyky včetně angličtiny, španělštiny, portugalštiny, francouzštiny, mandarínštiny a němčiny. ChatGPT podpora více než 80 jazyků.

Claude 2 neprošel testem vědecké přesnosti

Se všemi vylepšeními provedenými v Claude 2 byla očekávání lepší přesnosti v chatbotu vysoká. Alexandro Marinos, zakladatel technologické platformy Balena založené na kontejnerech, se rozhodl Claude-2 otestovat.

Marinos položil Claudeovi 2 standardní otázku, kterou vymyslel speciálně pro hodnocení přesnosti velkých jazykových modelů (LLM). Otázka zněla: „Poskytuje přirozená imunita vůči Covid-19 z předchozí infekce lepší ochranu ve srovnání s očkováním pro někoho, kdo nebyl infikován?

K Marinosově zklamání Claude 2 vygeneroval body k rozhovorům a informace z roku 2021, které byly „znatelně nepravdivé“ a dokonce obsahovaly odhalený obsah z roku 2020.

Výkon Claude 2 odpovídal výkonu jiných LLM, které Marino hodnotil dříve, jako je Bard, ChatGPT4, GPT4 (API) a StableVicuna. Když uživatel Twitteru zpochybnil tendenci LLM „prostě regulovat témata, kterými se krmí“, Marinos odpověděl: „S novějšími údaji jsou odpovědi obecně lepší.

Test však ukázal, že Claude 2, stejně jako ostatní LLM, nedostává důsledně nejnovější informace, což zdůrazňuje přetrvávající problém přesnosti v LLM jako celku.

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Cindy je novinářka v Metaverse Post, pokrývající témata související s web3, NFT, metaverse a AI, se zaměřením na rozhovory s Web3 hráči v oboru. Mluvila s více než 30 manažery na úrovni C a počítání a přinesla jejich cenné poznatky čtenářům. Cindy pochází ze Singapuru a nyní sídlí v Tbilisi v Gruzii. Je držitelkou bakalářského titulu v oboru komunikačních a mediálních studií na University of South Australia a má desetileté zkušenosti v žurnalistice a psaní. Spojte se s ní přes [chráněno e-mailem] s tiskovými nabídkami, oznámeními a příležitostmi k rozhovorům.

Další články
Cindy Tan
Cindy Tan

Cindy je novinářka v Metaverse Post, pokrývající témata související s web3, NFT, metaverse a AI, se zaměřením na rozhovory s Web3 hráči v oboru. Mluvila s více než 30 manažery na úrovni C a počítání a přinesla jejich cenné poznatky čtenářům. Cindy pochází ze Singapuru a nyní sídlí v Tbilisi v Gruzii. Je držitelkou bakalářského titulu v oboru komunikačních a mediálních studií na University of South Australia a má desetileté zkušenosti v žurnalistice a psaní. Spojte se s ní přes [chráněno e-mailem] s tiskovými nabídkami, oznámeními a příležitostmi k rozhovorům.

Od zvlnění k velké zelené DAO: Jak kryptoměnové projekty přispívají k charitě

Pojďme prozkoumat iniciativy využívající potenciál digitálních měn pro charitativní účely.

Vědět více

AlphaFold 3, Med-Gemini a další: The Way AI Transforms Healthcare in 2024

Umělá inteligence se ve zdravotnictví projevuje různými způsoby, od odhalování nových genetických korelací až po posílení robotických chirurgických systémů...

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Hromady partnerů s podporou, aby usnadnily bezproblémové obchodování s aktivy a převody a podpořily přijetí bitcoinů
Business Novinky Technika
Hromady partnerů s podporou, aby usnadnily bezproblémové obchodování s aktivy a převody a podpořily přijetí bitcoinů
14
3D gamifikace a AI až RedefiNe ve vzdělávacím průmyslu v roce 2024: Mnohostranné aplikace, bezkonkurenční zapojení a pohlcující zážitky
Vzdělání Životní styl Vývoj Příběhy a recenze Technika
3D gamifikace a AI až RedefiNe ve vzdělávacím průmyslu v roce 2024: Mnohostranné aplikace, bezkonkurenční zapojení a pohlcující zážitky 
14
Jak OpenAINejnovější model bourá bariéry, integruje textové, zvukové a vizuální vstupy a vytváří plynulý uživatelský zážitek
Vzdělání Životní styl Vývoj Příběhy a recenze Technika
Jak OpenAINejnovější model bourá bariéry, integruje textové, zvukové a vizuální vstupy a vytváří plynulý uživatelský zážitek
14
Účet X Bitlayeru je podezřelý z útoku, uživatelům se doporučuje dávat si pozor na phishingové odkazy
Novinky Technika
Účet X Bitlayeru je podezřelý z útoku, uživatelům se doporučuje dávat si pozor na phishingové odkazy
14
CRYPTOMERIA LABS PTE. LTD.