AI-onnauwkeurigheid slaat opnieuw toe: ChatGPT Concurrent Claude 2 Flunks doet de wetenschappelijke nauwkeurigheidstest net als andere LLM's
In het kort
Antropisch vrijgegeven ChatGPT rivaal Claude 2 op dinsdag.
Anders ChatGPT, stelt Claude 2 gebruikers in staat om codebestanden zoals pdf, txt en andere te uploaden, evenals weblinks samen te vatten.
Claude 2 zakte echter voor een wetenschappelijke nauwkeurigheidstest die andere LLM's zoals Bard, GPT4 en StableVicuna hebben ook gefaald.
Op dinsdag bracht Anthropic Claude 2 uit, de laatste update van zijn grote taalmodel/chatbot Claude, slechts vijf maanden na de lancering van Claude.
Alom beschouwd als een geduchte concurrent van OpenAI's ChatGPT, Claude 2's beta-chatervaring is gratis te gebruiken en wordt geleverd met verbeteringen in codering, wiskunde en redeneermogelijkheden.
Het kan ook langere reacties genereren en is toegankelijk via API. Volgens Anthropic scoort de chatbot 76% op de balk, zit hij in het 90e percentiel van het GRE-schrijfexamen en kan hij documenten produceren met duizenden tokens. Momenteel is Claude 2 alleen beschikbaar voor gebruikers in de VS en het VK
Claude 2 vs ChatGPT
Anders ChatGPT die alleen reacties op tekstprompts genereert, heeft Claude 2 een native Files Load-functie waarmee gebruikers codebestanden zoals pdf, txt en csv kunnen uploaden, tekst uit pdf-bestanden kunnen extraheren en samenvatten en de informatie in tabelvorm kunnen presenteren. Gebruikers kunnen de chatbot ook een weblink geven en Claude 2 zal de inhoud binnen de link samenvatten.
Met Claude 2 kunnen gebruikers tot 100,000 tokens (75,000 woorden) per prompt invoeren, een aanzienlijke toename ten opzichte van de vorige limiet van 9,000 tokens. Dit betekent dat de chatbot nu enorme hoeveelheden technische documentatie en zelfs hele boeken kan verwerken. In tegenstelling tot, OpenAI's GPT-4 model biedt slechts een contextlimiet van 8,000 tokens, met een apart uitgebreid model voor maximaal 32,000 tokens voor specifieke gebruikssituaties, verschillend van het model met 8,000 tokens.
Sully Omar, de mede-oprichter van AI-agent, Cognosys.ai, zei dat Claude 2 “goedkoper en sneller is dan GPT4” zij het met een kleine vertraging in de uitvoerprestaties.
Claude2 is defiuiteindelijk gaan forceren OpenAI's hand.
- Sully (@SullyOmarr) 11 juli 2023
Het is goedkoper en sneller dan gpt4. De output is niet zo goed, maar het is er bijna voor veel taken
Ik denk niet dat ik gpt4 nog vaker ga gebruiken, tenzij ze de prijzen verlagen (wat ze waarschijnlijk binnenkort zullen doen)
Claude 2 ondersteunt echter alleen de meest gesproken talen, waaronder Engels, Spaans, Portugees, Frans, Mandarijn en Duits, terwijl ChatGPT ondersteuning voor meer dan 80 talen.
Claude 2 slaagt niet voor wetenschappelijke nauwkeurigheidstest
Met alle verbeteringen aan Claude 2 waren de verwachtingen voor een betere nauwkeurigheid in de chatbot hooggespannen. Alexandro Marinos, de oprichter van het op containers gebaseerde technologieplatform Balena, nam het op zich om Claude-2 op de proef te stellen.
Marinos stelde Claude 2 een standaardvraag die hij speciaal had bedacht om de nauwkeurigheid van grote taalmodellen (LLM's) te evalueren. De vraag was: “Biedt natuurlijke immuniteit tegen Covid-19 van een eerdere infectie een betere bescherming in vergelijking met vaccinatie voor iemand die niet besmet is?”
Tot Marinos' teleurstelling genereerde Claude 2 gespreksonderwerpen en informatie uit 2021, die "kenbaar onjuist" was en zelfs ontkrachte inhoud uit 2020 bevatte.
Helaas slaagt Claude2 niet voor mijn standaard testvraag voor wetenschappelijke nauwkeurigheid. Het lijkt de gesprekspunten uit 2021 te herhalen die zelfs in 2020 duidelijk vals waren. Dat gezegd hebbende, de meeste / alle andere LLM's slagen hier ook niet in, dus meer van hetzelfde. https://t.co/6w6l1zjTRx pic.twitter.com/CejrZQMGR1
— Alexandros Marinos 🏴☠️ (@alexandrosM) 12 juli 2023
De prestatie van Claude 2 weergalmde die van andere LLM's die Marino eerder evalueerde, zoals Bard, ChatGPT4, GPT4 (API) en StabieleVicuna. Toen een Twitter-gebruiker de neiging van LLM’s in twijfel trok om ‘simpelweg de gespreksonderwerpen waarmee ze worden gevoed te reguleren’, antwoordde Marinos door te zeggen: ‘Met recentere gegevens zijn de antwoorden over het algemeen beter.’
De test toonde echter aan dat Claude 2, net als andere LLM's, niet consequent wordt voorzien van de meest recente informatie, wat wijst op het aanhoudende probleem van nauwkeurigheid binnen LLM's als geheel.
Disclaimer
In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.
Over de auteur
Cindy is journaliste bij Metaverse Post, over onderwerpen die verband houden met web3, NFT, metaverse en AI, met een focus op interviews met Web3 spelers uit de industrie. Ze heeft met meer dan dertig leidinggevenden op C-niveau gesproken en er komen er steeds meer bij, en bracht hun waardevolle inzichten naar de lezers. Cindy komt oorspronkelijk uit Singapore en is nu gevestigd in Tbilisi, Georgië. Ze heeft een bachelordiploma in communicatie- en mediastudies van de Universiteit van Zuid-Australië en heeft tien jaar ervaring in journalistiek en schrijven. Neem contact met haar op via [e-mail beveiligd] met perspitches, aankondigingen en interviewmogelijkheden.
Meer artikelenCindy is journaliste bij Metaverse Post, over onderwerpen die verband houden met web3, NFT, metaverse en AI, met een focus op interviews met Web3 spelers uit de industrie. Ze heeft met meer dan dertig leidinggevenden op C-niveau gesproken en er komen er steeds meer bij, en bracht hun waardevolle inzichten naar de lezers. Cindy komt oorspronkelijk uit Singapore en is nu gevestigd in Tbilisi, Georgië. Ze heeft een bachelordiploma in communicatie- en mediastudies van de Universiteit van Zuid-Australië en heeft tien jaar ervaring in journalistiek en schrijven. Neem contact met haar op via [e-mail beveiligd] met perspitches, aankondigingen en interviewmogelijkheden.