Her må selv de førende AI-tjenester give op: OpenAI’s hundedyre Pro-model klarer sig dårligst

Klodens førende AI-modeller dumper alle med et brag, når de sættes til at løse avancerede matematiske opgaver.

Artikel top billede

(Foto: Zac Wolff/Unsplash)

Selvom generativ AI-tjenester såsom OpenAI’s ChatGPT og Googles Gemini bliver stadigt bedre til at klare opgaver, er der stadigt områder, som kan give de alvidende modeller store udfordringer.

Det viser et nyt forskningsstudie fra amerikanske Cornell University, hvor klodens nyeste og mest avancerede modeller sættes til at løse opgaverne i den seneste runde af USA’s matematik olympiader, USAMO 2025.

Her viser alle modellerne at have det ualmindeligt svært ved at løse opgaverne, som kendetegnes ved at kræve logisk konsistens, kreativ tænkning og selvindsigt.

Igen af modellerne formår at levere bare fem procent rigtige svar, med DeepSeek R1 som topscoreren med 2,0 points ud af 42 mulige.

Dyrest er dårligst

Hvor avanceret og regnetung en given model er, synes ikke at forudsige hvor godt en model klarer sig i matematik-prøverne.

Undersøgelsens sværvægter Open AI’s o1-Pro model, scorer her alene 1,2 points points til trods for, at den forbruger for 203 dollar af AI-tokens.

Det er samme resultat som den kinesiske QwQ-model signeret af Alibaba, som kræver for 0,42 dollar regnekraft for at opnå en tilsvarende score.

Fælles for modellerne er, at deres evne til at vurdere egen performance og validere egne resultater er overdreven.

Den fulde undersøgelse kan granskes her.

De matematiske udfordringer og svar på disse kan findes her.

IT-Forsyningen I/S

It-specialist til serverteam

Københavnsområdet

Capgemini Danmark A/S

IGNITE Graduate Program 2026

Midtjylland

Capgemini Danmark A/S

Finance Lead (SAP)

Københavnsområdet

Capgemini Danmark A/S

Financial Accounting Consultant (SAP)

Københavnsområdet

Navnenyt fra it-Danmark

Pentos har pr. 2. juni 2025 ansat Erik Ebert som Country Manager. Han skal især beskæftige sig med udvidelsen af Pentos til Danmark og Norden. Det kræver bl.a. etablering af et lokalt leverance team og SAP Partnerskab. Han kommer fra en stilling som Senior Director hos Effective People. Han har tidligere beskæftiget sig med HR systemer baseret på SAP SuccessFactors hos en række danske større og mellemstore virksomheder. Nyt job

Erik Ebert

Pentos

Mark Michaelsen, teknisk systemejer og projektleder hos Aarhus Kommune, har pr. 26. januar 2026 fuldført uddannelsen Master i it, linjen i organisation på Aarhus Universitet via It-vest-samarbejdet. Færdiggjort uddannelse

Mark Michaelsen

Aarhus Kommune

Netip A/S har pr. 1. marts 2026 ansat Maria Lyng Refslund som Marketing Project Manager ved netIP Herning. Hun kommer fra en stilling som Marketing Project Manager hos itm8. Nyt job
Infosuite A/S har pr. 1. marts 2026 ansat Henrik Sandmann som Chief Operating Officer (COO). Han skal især beskæftige sig med drift, produktudvikling og skalering, herunder også procesforbedringer og udnyttelse af AI og nye teknologier. Han kommer fra en stilling som Program Director hos ADMG ApS. Han er uddannet cand. scient i datalogi og har derudover en MBA indenfor strategi, ledelse og forretningsudvikling. Nyt job

Henrik Sandmann

Infosuite A/S