Nieuwsverslag Technologie
July 12, 2023

AI-onnauwkeurigheid slaat opnieuw toe: ChatGPT Concurrent Claude 2 Flunks doet de wetenschappelijke nauwkeurigheidstest net als andere LLM's

In het kort

Antropisch vrijgegeven ChatGPT rivaal Claude 2 op dinsdag.

Anders ChatGPT, stelt Claude 2 gebruikers in staat om codebestanden zoals pdf, txt en andere te uploaden, evenals weblinks samen te vatten.

Claude 2 zakte echter voor een wetenschappelijke nauwkeurigheidstest die andere LLM's zoals Bard, GPT4 en StableVicuna hebben ook gefaald.

Op dinsdag bracht Anthropic Claude 2 uit, de laatste update van zijn grote taalmodel/chatbot Claude, slechts vijf maanden na de lancering van Claude.

AI-onnauwkeurigheid slaat opnieuw toe: ChatGPT Concurrent Claude 2 Flunks doet de wetenschappelijke nauwkeurigheidstest net als andere LLM's

Alom beschouwd als een geduchte concurrent van OpenAI's ChatGPT, Claude 2's beta-chatervaring is gratis te gebruiken en wordt geleverd met verbeteringen in codering, wiskunde en redeneermogelijkheden. 

Het kan ook langere reacties genereren en is toegankelijk via API. Volgens Anthropic scoort de chatbot 76% op de balk, zit hij in het 90e percentiel van het GRE-schrijfexamen en kan hij documenten produceren met duizenden tokens. Momenteel is Claude 2 alleen beschikbaar voor gebruikers in de VS en het VK

Claude 2 vs ChatGPT

Anders ChatGPT die alleen reacties op tekstprompts genereert, heeft Claude 2 een native Files Load-functie waarmee gebruikers codebestanden zoals pdf, txt en csv kunnen uploaden, tekst uit pdf-bestanden kunnen extraheren en samenvatten en de informatie in tabelvorm kunnen presenteren. Gebruikers kunnen de chatbot ook een weblink geven en Claude 2 zal de inhoud binnen de link samenvatten. 

Met Claude 2 kunnen gebruikers tot 100,000 tokens (75,000 woorden) per prompt invoeren, een aanzienlijke toename ten opzichte van de vorige limiet van 9,000 tokens. Dit betekent dat de chatbot nu enorme hoeveelheden technische documentatie en zelfs hele boeken kan verwerken. In tegenstelling tot, OpenAI's GPT-4 model biedt slechts een contextlimiet van 8,000 tokens, met een apart uitgebreid model voor maximaal 32,000 tokens voor specifieke gebruikssituaties, verschillend van het model met 8,000 tokens.

Sully Omar, de mede-oprichter van AI-agent, Cognosys.ai, zei dat Claude 2 “goedkoper en sneller is dan GPT4” zij het met een kleine vertraging in de uitvoerprestaties.

Claude 2 ondersteunt echter alleen de meest gesproken talen, waaronder Engels, Spaans, Portugees, Frans, Mandarijn en Duits, terwijl ChatGPT ondersteuning voor meer dan 80 talen.

Claude 2 slaagt niet voor wetenschappelijke nauwkeurigheidstest

Met alle verbeteringen aan Claude 2 waren de verwachtingen voor een betere nauwkeurigheid in de chatbot hooggespannen. Alexandro Marinos, de oprichter van het op containers gebaseerde technologieplatform Balena, nam het op zich om Claude-2 op de proef te stellen.

Marinos stelde Claude 2 een standaardvraag die hij speciaal had bedacht om de nauwkeurigheid van grote taalmodellen (LLM's) te evalueren. De vraag was: “Biedt natuurlijke immuniteit tegen Covid-19 van een eerdere infectie een betere bescherming in vergelijking met vaccinatie voor iemand die niet besmet is?”

Tot Marinos' teleurstelling genereerde Claude 2 gespreksonderwerpen en informatie uit 2021, die "kenbaar onjuist" was en zelfs ontkrachte inhoud uit 2020 bevatte.

De prestatie van Claude 2 weergalmde die van andere LLM's die Marino eerder evalueerde, zoals Bard, ChatGPT4, GPT4 (API) en StabieleVicuna. Toen een Twitter-gebruiker de neiging van LLM’s in twijfel trok om ‘simpelweg de gespreksonderwerpen waarmee ze worden gevoed te reguleren’, antwoordde Marinos door te zeggen: ‘Met recentere gegevens zijn de antwoorden over het algemeen beter.’

De test toonde echter aan dat Claude 2, net als andere LLM's, niet consequent wordt voorzien van de meest recente informatie, wat wijst op het aanhoudende probleem van nauwkeurigheid binnen LLM's als geheel.

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Cindy is journaliste bij Metaverse Post, over onderwerpen die verband houden met web3, NFT, metaverse en AI, met een focus op interviews met Web3 spelers uit de industrie. Ze heeft met meer dan dertig leidinggevenden op C-niveau gesproken en er komen er steeds meer bij, en bracht hun waardevolle inzichten naar de lezers. Cindy komt oorspronkelijk uit Singapore en is nu gevestigd in Tbilisi, Georgië. Ze heeft een bachelordiploma in communicatie- en mediastudies van de Universiteit van Zuid-Australië en heeft tien jaar ervaring in journalistiek en schrijven. Neem contact met haar op via [e-mail beveiligd] met perspitches, aankondigingen en interviewmogelijkheden.

Meer artikelen
Cindy Tan
Cindy Tan

Cindy is journaliste bij Metaverse Post, over onderwerpen die verband houden met web3, NFT, metaverse en AI, met een focus op interviews met Web3 spelers uit de industrie. Ze heeft met meer dan dertig leidinggevenden op C-niveau gesproken en er komen er steeds meer bij, en bracht hun waardevolle inzichten naar de lezers. Cindy komt oorspronkelijk uit Singapore en is nu gevestigd in Tbilisi, Georgië. Ze heeft een bachelordiploma in communicatie- en mediastudies van de Universiteit van Zuid-Australië en heeft tien jaar ervaring in journalistiek en schrijven. Neem contact met haar op via [e-mail beveiligd] met perspitches, aankondigingen en interviewmogelijkheden.

Hot Stories
Schrijf je in op onze nieuwsbrief.
Latest News

De rust voor de Solana-storm: wat grafieken, walvissen en on-chain signalen nu zeggen

Solana heeft sterke prestaties geleverd, gedreven door toenemende acceptatie, institutionele interesse en belangrijke partnerschappen, terwijl ze ook te maken had met potentiële ...

Meer weten

Crypto in april 2025: belangrijke trends, verschuivingen en wat er daarna komt

In april 2025 richtte de cryptowereld zich op het versterken van de kerninfrastructuur, waarbij Ethereum zich voorbereidde op de Pectra ...

Meer weten
Meer informatie
Lees meer
Eightco haalt $125 miljoen op aan institutionele financiering onder leiding van Bitmine, ARK Invest en Payward om investeringen in de volgende generatie technologie te versnellen.
Bedrijf Nieuwsverslag Technologie
Eightco haalt $125 miljoen op aan institutionele financiering onder leiding van Bitmine, ARK Invest en Payward om investeringen in de volgende generatie technologie te versnellen.
13 maart 2026
CZ betwist Forbes' beweringen over vermogen; hoe rijk zijn de belangrijkste stemmen in de cryptowereld?
Bedrijf Markten Nieuwsverslag Technologie
CZ betwist Forbes' beweringen over vermogen; hoe rijk zijn de belangrijkste stemmen in de cryptowereld?
13 maart 2026
Van groei naar zekerheid: een informeel gesprek bij HSC Asset Management over marktverschuivingen en de wereldwijde invloed van China.
Hack-seizoenen Mening Bedrijf Lifestyle Nieuwsverslag Technologie
Van groei naar zekerheid: een informeel gesprek bij HSC Asset Management over marktverschuivingen en de wereldwijde invloed van China.
13 maart 2026
AI-onderzoeker Samuele Marro van Oxford over gedecentraliseerde AI en blockchain: wanneer integratie waarde toevoegt, maar innovatie beperkt.
Interview Technologie
AI-onderzoeker Samuele Marro van Oxford over gedecentraliseerde AI en blockchain: wanneer integratie waarde toevoegt, maar innovatie beperkt.
13 maart 2026