Googles avancerede Gemini-model drevet af Deep Think vinder guld ved den internationale matematik-OL med problemløsning på menneskeligt niveau
Kort sagt
En avanceret version af Google DeepMinds Gemini AI-model opnåede guldmedaljepræstation ved den internationale matematiske olympiade ved at løse fem ud af seks problemer – hvilket markerer en vigtig AI-milepæl inden for matematisk ræsonnement på menneskeligt niveau.
Googles afdeling for kunstig intelligens, Google DeepMind annoncerede, at en avanceret version af deres Gemini Deep Think-model med succes løste fem ud af seks problemer ved den internationale matematiske olympiade (IMO) og opnåede 35 point – svarende til en præstation på guldmedaljeniveau. Dette var et af de første tilfælde, hvor IMO-koordinatorer officielt evaluerede og certificerede en models resultater ved hjælp af de samme standarder, der anvendes på menneskelige deltagere.
Gemini Deep Think-systemet, der blev brugt til denne demonstration featured forbedrede ræsonnementsevner skræddersyet til komplekse matematiske problemer. Den inkorporerede nyere forskningsudviklinger, herunder en metode kendt som parallel tænkning, som gør det muligt for modellen at udforske og integrere flere løsningsstier samtidigt, før den når frem til et endeligt svar, i stedet for at følge en enkelt lineær proces.
For at forbedre modellens ydeevne blev den trænet ved hjælp af forstærkningslæringsteknikker, der er designet til at forbedre flertrinsræsonnement, bevisførelse af sætninger og generel problemløsning. Systemet fik også adgang til et kurateret sæt af matematiske løsninger af høj kvalitet, sammen med instruktionsvejledning i, hvordan man håndterer IMO-lignende spørgsmål.
En begrænset version af denne Deep Think-model vil blive delt med udvalgte testere, herunder matematikere, forud for en bredere udgivelse til Google AI Ultra-abonnenter.
Denne udvikling repræsenterer et betydeligt skridt ud over sidste års resultater. I 2024 krævede modeller som AlphaGeometry og AlphaProof menneskelig indgriben for at oversætte problemer til domænespecifikke sprog (såsom Lean) og tilbage igen. Derudover tog det flere dages beregning at løse problemerne. I modsætning hertil var den opdaterede Gemini model producerede matematisk stringente løsninger direkte fra de officielle IMO-problemformuleringer, udelukkende i naturligt sprog og inden for den standardmæssige konkurrenceramme på 4.5 timer.
IMO bliver nøglebenchmark for AI inden for avanceret matematisk ræsonnement
IMO er en langvarig global konkurrence, der samler de bedste universitetsstuderende for at løse seks avancerede matematiske problemer på tværs af emner som algebra, kombinatorik, geometri og talteori. IMO blev etableret i 1959 og betragtes bredt som en af de mest udfordrende matematikkonkurrencer i verden. Hvert deltagende land stiller et hold på seks studerende, og der uddeles medaljer til de bedste 50% af deltagerne, hvoraf omkring 8% vinder en guldmedalje.
I de senere år er konkurrencen også blevet et benchmark for evaluering af kunstig intelligens' evner inden for kompleks problemløsning og matematisk ræsonnement. I 2024 opnåede et kombineret system fra Google DeepMind - AlphaProof og AlphaGeometry 2 - en præstation på sølvniveau ved at løse fire af de seks problemer og opnå 28 point. Dette resultat, som var baseret på formelle matematiske sprog, markerede et bemærkelsesværdigt skridt fremad i at demonstrere AI's potentiale til at matche avancerede menneskelige matematiske færdigheder.
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Alisa, en dedikeret journalist ved MPost, har specialiseret sig i kryptovaluta, beviser uden viden, investeringer og den ekspansive verden af Web3. Med et skarpt øje for nye trends og teknologier leverer hun omfattende dækning for at informere og engagere læserne i det stadigt udviklende landskab af digital finans.
Flere artikler
Alisa, en dedikeret journalist ved MPost, har specialiseret sig i kryptovaluta, beviser uden viden, investeringer og den ekspansive verden af Web3. Med et skarpt øje for nye trends og teknologier leverer hun omfattende dækning for at informere og engagere læserne i det stadigt udviklende landskab af digital finans.