Nieuwsverslag Technologie
12 juli 2023

AI-onnauwkeurigheid slaat opnieuw toe: ChatGPT Concurrent Claude 2 Flunks doet de wetenschappelijke nauwkeurigheidstest net als andere LLM's

In het kort

Antropisch vrijgegeven ChatGPT rivaal Claude 2 op dinsdag.

Anders ChatGPT, stelt Claude 2 gebruikers in staat om codebestanden zoals pdf, txt en andere te uploaden, evenals weblinks samen te vatten.

Claude 2 zakte echter voor een wetenschappelijke nauwkeurigheidstest die andere LLM's zoals Bard, GPT4 en StableVicuna hebben ook gefaald.

Op dinsdag bracht Anthropic Claude 2 uit, de laatste update van zijn grote taalmodel/chatbot Claude, slechts vijf maanden na de lancering van Claude.

AI-onnauwkeurigheid slaat opnieuw toe: ChatGPT Concurrent Claude 2 Flunks doet de wetenschappelijke nauwkeurigheidstest net als andere LLM's

Alom beschouwd als een geduchte concurrent van OpenAI's ChatGPT, Claude 2's beta-chatervaring is gratis te gebruiken en wordt geleverd met verbeteringen in codering, wiskunde en redeneermogelijkheden. 

Het kan ook langere reacties genereren en is toegankelijk via API. Volgens Anthropic scoort de chatbot 76% op de balk, zit hij in het 90e percentiel van het GRE-schrijfexamen en kan hij documenten produceren met duizenden tokens. Momenteel is Claude 2 alleen beschikbaar voor gebruikers in de VS en het VK

Claude 2 vs ChatGPT

Anders ChatGPT die alleen reacties op tekstprompts genereert, heeft Claude 2 een native Files Load-functie waarmee gebruikers codebestanden zoals pdf, txt en csv kunnen uploaden, tekst uit pdf-bestanden kunnen extraheren en samenvatten en de informatie in tabelvorm kunnen presenteren. Gebruikers kunnen de chatbot ook een weblink geven en Claude 2 zal de inhoud binnen de link samenvatten. 

Met Claude 2 kunnen gebruikers tot 100,000 tokens (75,000 woorden) per prompt invoeren, een aanzienlijke toename ten opzichte van de vorige limiet van 9,000 tokens. Dit betekent dat de chatbot nu enorme hoeveelheden technische documentatie en zelfs hele boeken kan verwerken. In tegenstelling tot, OpenAI's GPT-4 model biedt slechts een contextlimiet van 8,000 tokens, met een apart uitgebreid model voor maximaal 32,000 tokens voor specifieke gebruikssituaties, verschillend van het model met 8,000 tokens.

Sully Omar, de mede-oprichter van AI-agent, Cognosys.ai, zei dat Claude 2 “goedkoper en sneller is dan GPT4” zij het met een kleine vertraging in de uitvoerprestaties.

Claude 2 ondersteunt echter alleen de meest gesproken talen, waaronder Engels, Spaans, Portugees, Frans, Mandarijn en Duits, terwijl ChatGPT ondersteuning voor meer dan 80 talen.

Claude 2 slaagt niet voor wetenschappelijke nauwkeurigheidstest

Met alle verbeteringen aan Claude 2 waren de verwachtingen voor een betere nauwkeurigheid in de chatbot hooggespannen. Alexandro Marinos, de oprichter van het op containers gebaseerde technologieplatform Balena, nam het op zich om Claude-2 op de proef te stellen.

Marinos stelde Claude 2 een standaardvraag die hij speciaal had bedacht om de nauwkeurigheid van grote taalmodellen (LLM's) te evalueren. De vraag was: “Biedt natuurlijke immuniteit tegen Covid-19 van een eerdere infectie een betere bescherming in vergelijking met vaccinatie voor iemand die niet besmet is?”

Tot Marinos' teleurstelling genereerde Claude 2 gespreksonderwerpen en informatie uit 2021, die "kenbaar onjuist" was en zelfs ontkrachte inhoud uit 2020 bevatte.

De prestatie van Claude 2 weergalmde die van andere LLM's die Marino eerder evalueerde, zoals Bard, ChatGPT4, GPT4 (API) en StabieleVicuna. Toen een Twitter-gebruiker de neiging van LLM’s in twijfel trok om ‘simpelweg de gespreksonderwerpen waarmee ze worden gevoed te reguleren’, antwoordde Marinos door te zeggen: ‘Met recentere gegevens zijn de antwoorden over het algemeen beter.’

De test toonde echter aan dat Claude 2, net als andere LLM's, niet consequent wordt voorzien van de meest recente informatie, wat wijst op het aanhoudende probleem van nauwkeurigheid binnen LLM's als geheel.

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Cindy is journaliste bij Metaverse Post, over onderwerpen die verband houden met web3, NFT, metaverse en AI, met een focus op interviews met Web3 spelers uit de industrie. Ze heeft met meer dan dertig leidinggevenden op C-niveau gesproken en er komen er steeds meer bij, en bracht hun waardevolle inzichten naar de lezers. Cindy komt oorspronkelijk uit Singapore en is nu gevestigd in Tbilisi, Georgië. Ze heeft een bachelordiploma in communicatie- en mediastudies van de Universiteit van Zuid-Australië en heeft tien jaar ervaring in journalistiek en schrijven. Neem contact met haar op via [e-mail beveiligd] met perspitches, aankondigingen en interviewmogelijkheden.

Meer artikelen
Cindy Tan
Cindy Tan

Cindy is journaliste bij Metaverse Post, over onderwerpen die verband houden met web3, NFT, metaverse en AI, met een focus op interviews met Web3 spelers uit de industrie. Ze heeft met meer dan dertig leidinggevenden op C-niveau gesproken en er komen er steeds meer bij, en bracht hun waardevolle inzichten naar de lezers. Cindy komt oorspronkelijk uit Singapore en is nu gevestigd in Tbilisi, Georgië. Ze heeft een bachelordiploma in communicatie- en mediastudies van de Universiteit van Zuid-Australië en heeft tien jaar ervaring in journalistiek en schrijven. Neem contact met haar op via [e-mail beveiligd] met perspitches, aankondigingen en interviewmogelijkheden.

Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid

Laten we initiatieven onderzoeken die het potentieel van digitale valuta voor goede doelen benutten.

Meer weten

AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024

AI manifesteert zich op verschillende manieren in de gezondheidszorg, van het blootleggen van nieuwe genetische correlaties tot het versterken van robotchirurgische systemen...

Meer weten
Lees Verder
Lees meer
DEXX belooft gebruikers te compenseren voor verliezen na hack van $ 21 miljoen
Nieuwsverslag Technologie
DEXX belooft gebruikers te compenseren voor verliezen na hack van $ 21 miljoen
6 december 2024
De toekomst van privacy op openbare blockchains en hoe COTI de weg vrijmaakt voor veilige gedecentraliseerde systemen
Interview Zakelijk Markten Software Technologie
De toekomst van privacy op openbare blockchains en hoe COTI de weg vrijmaakt voor veilige gedecentraliseerde systemen
6 december 2024
Binance voegt tokens toe aan protocol en Orca om crypto te verdienen, kopen, converteren, marges en futures te genereren
Nieuwsverslag Technologie
Binance voegt tokens toe aan protocol en Orca om crypto te verdienen, kopen, converteren, marges en futures te genereren
6 december 2024
Van Quantum Wallets tot Luxe Crypto Betalingen, Gedurfde Partnerschappen Leiden De Toekomst Van Blockchain In
Verteren Zakelijk Markten Software Technologie
Van Quantum Wallets tot Luxe Crypto Betalingen, Gedurfde Partnerschappen Leiden De Toekomst Van Blockchain In
6 december 2024