Znovu zasáhla nepřesnost AI: ChatGPT Konkurent Claude 2 propadá vědecký test přesnosti jako ostatní LLM
Stručně
Antropický propuštěn ChatGPT rival Claude 2 v úterý.
Na rozdíl od ChatGPT, Claude 2 umožňuje uživatelům nahrávat soubory s kódem, jako jsou pdf, txt a další, stejně jako shrnutí webových odkazů.
Claude 2 však propadl vědeckému testu přesnosti, který ostatní LLM jako Bard, GPT4 a StableVicuna také selhaly.
V úterý společnost Anthropic vydala Claude 2, nejnovější aktualizaci svého velkého jazykového modelu/chatbota Claude, pouhých pět měsíců po spuštění Claude.
Široce považován za impozantního konkurenta OpenAIJe ChatGPT, Beta chat Claude 2 je k použití zdarma a přichází s vylepšeními v kódování, matematice a schopnostech uvažování.
Může také generovat delší odpovědi a lze k němu přistupovat přes API. Podle Anthropic má chatbot skóre 76 % na liště, je v 90. percentilu písemné zkoušky GRE a dokáže produkovat dokumenty s tisíci tokenů. V současné době je Claude 2 k dispozici pouze uživatelům v USA a Velké Británii
Claude 2 vs ChatGPT
Na rozdíl od ChatGPT který generuje pouze odpovědi na textové výzvy, Claude 2 má nativní funkci Files Load, která uživatelům umožňuje nahrávat soubory s kódem jako pdf, txt a csv, extrahovat a shrnout text ze souborů PDF a prezentovat informace ve formátu tabulky. Uživatelé mohou také poslat chatbotovi webový odkaz a Claude 2 shrne obsah v odkazu.
S Claude 2 mohou uživatelé vložit až 100,000 75,000 tokenů (9,000 XNUMX slov) na výzvu, což je významný nárůst oproti předchozímu limitu XNUMX XNUMX tokenů. To znamená, že chatbot nyní může zpracovávat obrovské objemy technické dokumentace a dokonce i celé knihy. V porovnání, OpenAIJe GPT-4 model poskytuje pouze kontextový limit 8,000 tokenyse samostatným rozšířeným modelem, který pojme až 32,000 8,000 tokenů pro specifické případy použití, na rozdíl od modelu s XNUMX XNUMX tokeny.
Sully Omar, spoluzakladatel agent AI, Cognosys.ai, řekl, že Claude 2 je „levnější a rychlejší než GPT4” i když s mírným zpožděním ve výstupním výkonu.
Claude2 je defidonutit OpenAIruka.
- Sully (@SullyOmarr) Července 11, 2023
Je to levnější a rychlejší než gpt4. Výstup není tak dobrý, ale pro mnoho úkolů je téměř k dispozici
Nevidím, že používám gpt4, pokud neklesnou ceny (což pravděpodobně brzy budou)
Claude 2 však podporuje pouze nejrozšířenější jazyky včetně angličtiny, španělštiny, portugalštiny, francouzštiny, mandarínštiny a němčiny. ChatGPT podpora více než 80 jazyků.
Claude 2 neprošel testem vědecké přesnosti
Se všemi vylepšeními provedenými v Claude 2 byla očekávání lepší přesnosti v chatbotu vysoká. Alexandro Marinos, zakladatel technologické platformy Balena založené na kontejnerech, se rozhodl Claude-2 otestovat.
Marinos položil Claudeovi 2 standardní otázku, kterou vymyslel speciálně pro hodnocení přesnosti velkých jazykových modelů (LLM). Otázka zněla: „Poskytuje přirozená imunita vůči Covid-19 z předchozí infekce lepší ochranu ve srovnání s očkováním pro někoho, kdo nebyl infikován?
K Marinosově zklamání Claude 2 vygeneroval body k rozhovorům a informace z roku 2021, které byly „znatelně nepravdivé“ a dokonce obsahovaly odhalený obsah z roku 2020.
Bohužel Claude2 nesplnil mou standardní testovací otázku pro vědeckou přesnost. Zdá se, že opakují body povídání z roku 2021, které byly zjevně nepravdivé i v roce 2020. To znamená, že většina/všechny ostatní LLM selhávají i v tomto, takže více stejných. https://t.co/6w6l1zjTRx pic.twitter.com/CejrZQMGR1
— Alexandros Marinos 🏴☠️ (@alexandrosM) Července 12, 2023
Výkon Claude 2 odpovídal výkonu jiných LLM, které Marino hodnotil dříve, jako je Bard, ChatGPT4, GPT4 (API) a StableVicuna. Když uživatel Twitteru zpochybnil tendenci LLM „prostě regulovat témata, kterými se krmí“, Marinos odpověděl: „S novějšími údaji jsou odpovědi obecně lepší.
Test však ukázal, že Claude 2, stejně jako ostatní LLM, nedostává důsledně nejnovější informace, což zdůrazňuje přetrvávající problém přesnosti v LLM jako celku.
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Cindy je novinářka v Metaverse Post, pokrývající témata související s web3, NFT, metaverse a AI, se zaměřením na rozhovory s Web3 hráči v oboru. Mluvila s více než 30 manažery na úrovni C a počítání a přinesla jejich cenné poznatky čtenářům. Cindy pochází ze Singapuru a nyní sídlí v Tbilisi v Gruzii. Je držitelkou bakalářského titulu v oboru komunikačních a mediálních studií na University of South Australia a má desetileté zkušenosti v žurnalistice a psaní. Spojte se s ní přes [chráněno e-mailem] s tiskovými nabídkami, oznámeními a příležitostmi k rozhovorům.
Další článkyCindy je novinářka v Metaverse Post, pokrývající témata související s web3, NFT, metaverse a AI, se zaměřením na rozhovory s Web3 hráči v oboru. Mluvila s více než 30 manažery na úrovni C a počítání a přinesla jejich cenné poznatky čtenářům. Cindy pochází ze Singapuru a nyní sídlí v Tbilisi v Gruzii. Je držitelkou bakalářského titulu v oboru komunikačních a mediálních studií na University of South Australia a má desetileté zkušenosti v žurnalistice a psaní. Spojte se s ní přes [chráněno e-mailem] s tiskovými nabídkami, oznámeními a příležitostmi k rozhovorům.