Her må selv de førende AI-tjenester give op: OpenAI’s hundedyre Pro-model klarer sig dårligst

Klodens førende AI-modeller dumper alle med et brag, når de sættes til at løse avancerede matematiske opgaver.

Artikel top billede

(Foto: Zac Wolff/Unsplash)

Selvom generativ AI-tjenester såsom OpenAI’s ChatGPT og Googles Gemini bliver stadigt bedre til at klare opgaver, er der stadigt områder, som kan give de alvidende modeller store udfordringer.

Det viser et nyt forskningsstudie fra amerikanske Cornell University, hvor klodens nyeste og mest avancerede modeller sættes til at løse opgaverne i den seneste runde af USA’s matematik olympiader, USAMO 2025.

Her viser alle modellerne at have det ualmindeligt svært ved at løse opgaverne, som kendetegnes ved at kræve logisk konsistens, kreativ tænkning og selvindsigt.

Igen af modellerne formår at levere bare fem procent rigtige svar, med DeepSeek R1 som topscoreren med 2,0 points ud af 42 mulige.

Dyrest er dårligst

Hvor avanceret og regnetung en given model er, synes ikke at forudsige hvor godt en model klarer sig i matematik-prøverne.

Undersøgelsens sværvægter Open AI’s o1-Pro model, scorer her alene 1,2 points points til trods for, at den forbruger for 203 dollar af AI-tokens.

Det er samme resultat som den kinesiske QwQ-model signeret af Alibaba, som kræver for 0,42 dollar regnekraft for at opnå en tilsvarende score.

Fælles for modellerne er, at deres evne til at vurdere egen performance og validere egne resultater er overdreven.

Den fulde undersøgelse kan granskes her.

De matematiske udfordringer og svar på disse kan findes her.

Event: Computerworld Summit 2026 - Aarhus

Digital transformation | Aarhus C

Styrk din digitale strategi med konkret brug af AI og ny teknologi. Mød 200 it-professionelle, få indsigter, løsninger og netværk på én dag. Computerworld Summit i Aarhus viser hvordan teknologi skaber forretningsværdi – her og nu.

21. april 2026 | Gratis deltagelse

En kaotisk verden kræver stærk cybersikkerhed, resiliens og digital suverænitet

Mød David Heinemeier, Flemming Splidsboel Hansen, Casper Klynge, Rasmus Knappe, Jens Myrup Pedersen og forfattere som fhv. jægersoldat Thomas Rathsack og adfærdsforsker Henrik Tingleff.

Computerworld afholder d. 4. og 5. november Cyber Security Festival i København - med fokus på sikkerhed, resiliens og digital suverænitet. Det er helt gratis - men reserver din plads allerede nu.

Hele programmet er online lige nu - og du kan reservere din gratis plads lige her - jeg håber vi ses! 

Lars Jacobsen

Chefredaktør på Computerworld

Se alle Lars's artikler her

Navnenyt fra it-Danmark

Danske Spil har pr. 1. oktober 2025 ansat Jesper Krogh Heitmann som Brand Manager for Oddset. Han skal især beskæftige sig med at udvikle og drive brandets strategi og sikre en rød tråd på tværs af alle platforme og aktiviteter. Han kommer fra en stilling som Marketing & Communications Manager hos Intellishore. Nyt job

Jesper Krogh Heitmann

Danske Spil

IT Confidence A/S har pr. 1. oktober 2025 ansat Henrik Thøgersen som it-konsulent med fokus på salg. Han skal især beskæftige sig med rådgivende salg, account management og udvikling af kundeporteføljer på tværs af it-drift, sikkerhed og cloud-løsninger. Han kommer fra en stilling som freelancer i eget firma og client manager hos IT Relation og IT-Afdelingen A/S. Han er uddannet elektromekaniker. Han har tidligere beskæftiget sig med salg af it-løsninger, account management, it-drift og rådgivning samt undervisning og ledelse. Nyt job

Henrik Thøgersen

IT Confidence A/S

Norriq Danmark A/S har pr. 1. september 2025 ansat Thea Scheuer Gregersen som Finace accountant. Hun skal især beskæftige sig med håndteringer af bl.a. bogføring og finansiel rapportering på tværs af selskaberne. Hun er uddannet Bachelor´s degree i Business Administration & Economics og en Master of Sustainable Business degree. Nyt job

Thea Scheuer Gregersen

Norriq Danmark A/S