AI-onnauwkeurigheid slaat opnieuw toe: ChatGPT Concurrent Claude 2 Flunks doet de wetenschappelijke nauwkeurigheidstest net als andere LLM's
In het kort
Antropisch vrijgegeven ChatGPT rivaal Claude 2 op dinsdag.
Anders ChatGPT, stelt Claude 2 gebruikers in staat om codebestanden zoals pdf, txt en andere te uploaden, evenals weblinks samen te vatten.
Claude 2 zakte echter voor een wetenschappelijke nauwkeurigheidstest die andere LLM's zoals Bard, GPT4 en StableVicuna ook hebben gefaald.
Op dinsdag bracht Anthropic Claude 2 uit, de laatste update van zijn grote taalmodel/chatbot Claude, slechts vijf maanden na de lancering van Claude.
Alom beschouwd als een geduchte concurrent van OpenAI's ChatGPT, Claude 2's beta-chatervaring is gratis te gebruiken en wordt geleverd met verbeteringen in codering, wiskunde en redeneermogelijkheden.
Het kan ook langere reacties genereren en is toegankelijk via API. Volgens Anthropic scoort de chatbot 76% op de balk, zit hij in het 90e percentiel van het GRE-schrijfexamen en kan hij documenten produceren met duizenden tokens. Momenteel is Claude 2 alleen beschikbaar voor gebruikers in de VS en het VK
Claude 2 vs ChatGPT
Anders ChatGPT die alleen reacties op tekstprompts genereert, heeft Claude 2 een native Files Load-functie waarmee gebruikers codebestanden zoals pdf, txt en csv kunnen uploaden, tekst uit pdf-bestanden kunnen extraheren en samenvatten en de informatie in tabelvorm kunnen presenteren. Gebruikers kunnen de chatbot ook een weblink geven en Claude 2 zal de inhoud binnen de link samenvatten.
Met Claude 2 kunnen gebruikers tot 100,000 tokens (75,000 woorden) per prompt invoeren, een aanzienlijke toename ten opzichte van de vorige limiet van 9,000 tokens. Dit betekent dat de chatbot nu enorme hoeveelheden technische documentatie en zelfs hele boeken kan verwerken. In tegenstelling tot, OpenAI's GPT-4-model biedt alleen een contextlimiet van 8,000 tokens, met een apart uitgebreid model voor maximaal 32,000 tokens voor specifieke gebruikssituaties, verschillend van het model met 8,000 tokens.
Sully Omar, de mede-oprichter van AI-agent, Cognosys.ai, zei dat Claude 2 "goedkoper en sneller is dan GPT4", zij het met een lichte vertraging in uitvoerprestaties.
Claude2 is defiuiteindelijk gaan forceren OpenAI's hand.
- Sully (@SullyOmarr) 11 juli 2023
Het is goedkoper en sneller dan gpt4. De output is niet zo goed, maar het is er bijna voor veel taken
Ik zie mezelf gpt4 niet zo vaak meer gebruiken, tenzij ze de prijzen verlagen (wat ze waarschijnlijk binnenkort zullen doen)
Claude 2 ondersteunt echter alleen de meest gesproken talen, waaronder Engels, Spaans, Portugees, Frans, Mandarijn en Duits, terwijl ChatGPT ondersteuning voor meer dan 80 talen.
Claude 2 slaagt niet voor wetenschappelijke nauwkeurigheidstest
Met alle verbeteringen aan Claude 2 waren de verwachtingen voor een betere nauwkeurigheid in de chatbot hooggespannen. Alexandro Marinos, de oprichter van het op containers gebaseerde technologieplatform Balena, nam het op zich om Claude-2 op de proef te stellen.
Marinos stelde Claude 2 een standaardvraag die hij speciaal had bedacht om de nauwkeurigheid van grote taalmodellen (LLM's) te evalueren. De vraag was: “Biedt natuurlijke immuniteit tegen Covid-19 van een eerdere infectie een betere bescherming in vergelijking met vaccinatie voor iemand die niet besmet is?”
Tot Marinos' teleurstelling genereerde Claude 2 gespreksonderwerpen en informatie uit 2021, die "kenbaar onjuist" was en zelfs ontkrachte inhoud uit 2020 bevatte.
Helaas slaagt Claude2 niet voor mijn standaard testvraag voor wetenschappelijke nauwkeurigheid. Het lijkt de gesprekspunten uit 2021 te herhalen die zelfs in 2020 duidelijk vals waren. Dat gezegd hebbende, de meeste / alle andere LLM's slagen hier ook niet in, dus meer van hetzelfde. https://t.co/6w6l1zjTRx pic.twitter.com/CejrZQMGR1
— Alexandros Marinos 🏴☠️ (@alexandrosM) 12 juli 2023
De prestatie van Claude 2 weergalmde die van andere LLM's die Marino eerder evalueerde, zoals Bard, ChatGPT4, GPT4 (API) en StableVicuna. Toen een Twitter-gebruiker vraagtekens zette bij de neiging van LLM's om "eenvoudigweg de gespreksonderwerpen waarmee ze worden gevoed te reguleren", antwoordde Marinos door te stellen: "Met recentere gegevens zijn de antwoorden over het algemeen beter."
De test toonde echter aan dat Claude 2, net als andere LLM's, niet consequent wordt voorzien van de meest recente informatie, wat wijst op het aanhoudende probleem van nauwkeurigheid binnen LLM's als geheel.
Disclaimer
Alle gegevens, tekst of andere inhoud op deze pagina wordt verstrekt als algemene marktinformatie en niet als beleggingsadvies. In het verleden behaalde resultaten zijn niet noodzakelijkerwijs een indicator voor toekomstige resultaten.
Het Trust Project is een wereldwijde groep van nieuwsorganisaties die werken aan het vaststellen van transparantienormen.
Cindy is journaliste bij Metaverse Post, over onderwerpen die verband houden met web3, NFT, metaverse en AI, met een focus op interviews met Web3 industrie spelers. Ze heeft met meer dan 30 leidinggevenden op C-niveau gesproken en er komen er nog steeds bij, en hun waardevolle inzichten aan de lezers meegeven. Cindy komt oorspronkelijk uit Singapore en is nu gevestigd in Tbilisi, Georgië. Ze heeft een bachelordiploma in communicatie- en mediastudies van de Universiteit van Zuid-Australië en heeft tien jaar ervaring in journalistiek en schrijven. Neem contact met haar op via [e-mail beveiligd] met perspitches, aankondigingen en interviewmogelijkheden.
Meer artikelenCindy is journaliste bij Metaverse Post, over onderwerpen die verband houden met web3, NFT, metaverse en AI, met een focus op interviews met Web3 industrie spelers. Ze heeft met meer dan 30 leidinggevenden op C-niveau gesproken en er komen er nog steeds bij, en hun waardevolle inzichten aan de lezers meegeven. Cindy komt oorspronkelijk uit Singapore en is nu gevestigd in Tbilisi, Georgië. Ze heeft een bachelordiploma in communicatie- en mediastudies van de Universiteit van Zuid-Australië en heeft tien jaar ervaring in journalistiek en schrijven. Neem contact met haar op via [e-mail beveiligd] met perspitches, aankondigingen en interviewmogelijkheden.