Nieuwsverslag Technologie
12 juli 2023

AI-onnauwkeurigheid slaat opnieuw toe: ChatGPT Concurrent Claude 2 Flunks doet de wetenschappelijke nauwkeurigheidstest net als andere LLM's

Op dinsdag bracht Anthropic Claude 2 uit, de laatste update van zijn grote taalmodel/chatbot Claude, slechts vijf maanden na de lancering van Claude.

Alom beschouwd als een geduchte concurrent van OpenAI's ChatGPT, Claude 2's beta-chatervaring is gratis te gebruiken en wordt geleverd met verbeteringen in codering, wiskunde en redeneermogelijkheden. 

Het kan ook langere reacties genereren en is toegankelijk via API. Volgens Anthropic scoort de chatbot 76% op de balk, zit hij in het 90e percentiel van het GRE-schrijfexamen en kan hij documenten produceren met duizenden tokens. Momenteel is Claude 2 alleen beschikbaar voor gebruikers in de VS en het VK

Claude 2 vs ChatGPT

Anders ChatGPT die alleen reacties op tekstprompts genereert, heeft Claude 2 een native Files Load-functie waarmee gebruikers codebestanden zoals pdf, txt en csv kunnen uploaden, tekst uit pdf-bestanden kunnen extraheren en samenvatten en de informatie in tabelvorm kunnen presenteren. Gebruikers kunnen de chatbot ook een weblink geven en Claude 2 zal de inhoud binnen de link samenvatten. 

Met Claude 2 kunnen gebruikers tot 100,000 tokens (75,000 woorden) per prompt invoeren, een aanzienlijke toename ten opzichte van de vorige limiet van 9,000 tokens. Dit betekent dat de chatbot nu enorme hoeveelheden technische documentatie en zelfs hele boeken kan verwerken. In tegenstelling tot, OpenAI's GPT-4-model biedt alleen een contextlimiet van 8,000 tokens, met een apart uitgebreid model voor maximaal 32,000 tokens voor specifieke gebruikssituaties, verschillend van het model met 8,000 tokens.

Sully Omar, de mede-oprichter van AI-agent, Cognosys.ai, zei dat Claude 2 "goedkoper en sneller is dan GPT4", zij het met een lichte vertraging in uitvoerprestaties.

Claude 2 ondersteunt echter alleen de meest gesproken talen, waaronder Engels, Spaans, Portugees, Frans, Mandarijn en Duits, terwijl ChatGPT ondersteuning voor meer dan 80 talen.

Claude 2 slaagt niet voor wetenschappelijke nauwkeurigheidstest

Met alle verbeteringen aan Claude 2 waren de verwachtingen voor een betere nauwkeurigheid in de chatbot hooggespannen. Alexandro Marinos, de oprichter van het op containers gebaseerde technologieplatform Balena, nam het op zich om Claude-2 op de proef te stellen.

Marinos stelde Claude 2 een standaardvraag die hij speciaal had bedacht om de nauwkeurigheid van grote taalmodellen (LLM's) te evalueren. De vraag was: “Biedt natuurlijke immuniteit tegen Covid-19 van een eerdere infectie een betere bescherming in vergelijking met vaccinatie voor iemand die niet besmet is?”

Tot Marinos' teleurstelling genereerde Claude 2 gespreksonderwerpen en informatie uit 2021, die "kenbaar onjuist" was en zelfs ontkrachte inhoud uit 2020 bevatte.

De prestatie van Claude 2 weergalmde die van andere LLM's die Marino eerder evalueerde, zoals Bard, ChatGPT4, GPT4 (API) en StableVicuna. Toen een Twitter-gebruiker vraagtekens zette bij de neiging van LLM's om "eenvoudigweg de gespreksonderwerpen waarmee ze worden gevoed te reguleren", antwoordde Marinos door te stellen: "Met recentere gegevens zijn de antwoorden over het algemeen beter."

De test toonde echter aan dat Claude 2, net als andere LLM's, niet consequent wordt voorzien van de meest recente informatie, wat wijst op het aanhoudende probleem van nauwkeurigheid binnen LLM's als geheel.

Disclaimer

Alle gegevens, tekst of andere inhoud op deze pagina wordt verstrekt als algemene marktinformatie en niet als beleggingsadvies. In het verleden behaalde resultaten zijn niet noodzakelijkerwijs een indicator voor toekomstige resultaten.


Het Trust Project is een wereldwijde groep van nieuwsorganisaties die werken aan het vaststellen van transparantienormen.

Cindy is journaliste bij Metaverse Post, over onderwerpen die verband houden met web3, NFT, metaverse en AI, met een focus op interviews met Web3 industrie spelers. Ze heeft met meer dan 30 leidinggevenden op C-niveau gesproken en er komen er nog steeds bij, en hun waardevolle inzichten aan de lezers meegeven. Cindy komt oorspronkelijk uit Singapore en is nu gevestigd in Tbilisi, Georgië. Ze heeft een bachelordiploma in communicatie- en mediastudies van de Universiteit van Zuid-Australië en heeft tien jaar ervaring in journalistiek en schrijven. Neem contact met haar op via [e-mail beveiligd] met perspitches, aankondigingen en interviewmogelijkheden.

Meer artikelen
Cindy Tan
Cindy Tan

Cindy is journaliste bij Metaverse Post, over onderwerpen die verband houden met web3, NFT, metaverse en AI, met een focus op interviews met Web3 industrie spelers. Ze heeft met meer dan 30 leidinggevenden op C-niveau gesproken en er komen er nog steeds bij, en hun waardevolle inzichten aan de lezers meegeven. Cindy komt oorspronkelijk uit Singapore en is nu gevestigd in Tbilisi, Georgië. Ze heeft een bachelordiploma in communicatie- en mediastudies van de Universiteit van Zuid-Australië en heeft tien jaar ervaring in journalistiek en schrijven. Neem contact met haar op via [e-mail beveiligd] met perspitches, aankondigingen en interviewmogelijkheden.

Hete verhalen
Schrijf je in op onze nieuwsbrief.
Laatste Nieuws

CGV-onderzoek: technologische vooruitgang en toekomstperspectieven van Telegram Open Network (TON).

Het verleden van TL;DR TON In 2018 begonnen de oprichters van Telegram – de gebroeders Durov – blockchain-oplossingen te onderzoeken die geschikt zijn...

Meer weten

De 20 meest onderschatte AI-startups in 2023: gerangschikt op basis van financiering

AI blijft een constant aandachtspunt voor zowel investeerders als ondernemers. Terwijl de spotlight vaak op...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Crypto.com Partners with PayPal and Paxos for PayPal USD (PYUSD) Integration
Nieuwsverslag Technologie
Crypto.com werkt samen met PayPal en Paxos voor PayPal USD (PYUSD)-integratie
28 september 2023
Meta Introduces 28 AI Characters and AI Studio for Expanded Creativity
Nieuwsverslag Technologie
Meta introduceert 28 AI-personages en AI Studio voor uitgebreide creativiteit
27 september 2023
Meta Unveils AI Integration Across Services, from Generative Emu Model to Smart Glasses
Bedrijven Nieuwsverslag Technologie
Meta onthult AI-integratie tussen services, van het generatieve Emu-model tot slimme brillen
27 september 2023
OpenAI Expands ChatGPT’s Capabilities with Web Browsing
Bedrijven Nieuwsverslag
OpenAI Breidt ChatGPT's Mogelijkheden met surfen op het web
27 september 2023
Wat jij
Moet weten

Abonneer op onze nieuwsbrief.
Dagelijkse weetjes over zoekmarketing voor slimme professionals.