Her må selv de førende AI-tjenester give op: OpenAI’s hundedyre Pro-model klarer sig dårligst

Klodens førende AI-modeller dumper alle med et brag, når de sættes til at løse avancerede matematiske opgaver.

Artikel top billede

(Foto: Zac Wolff/Unsplash)

Selvom generativ AI-tjenester såsom OpenAI’s ChatGPT og Googles Gemini bliver stadigt bedre til at klare opgaver, er der stadigt områder, som kan give de alvidende modeller store udfordringer.

Det viser et nyt forskningsstudie fra amerikanske Cornell University, hvor klodens nyeste og mest avancerede modeller sættes til at løse opgaverne i den seneste runde af USA’s matematik olympiader, USAMO 2025.

Her viser alle modellerne at have det ualmindeligt svært ved at løse opgaverne, som kendetegnes ved at kræve logisk konsistens, kreativ tænkning og selvindsigt.

Igen af modellerne formår at levere bare fem procent rigtige svar, med DeepSeek R1 som topscoreren med 2,0 points ud af 42 mulige.

Dyrest er dårligst

Hvor avanceret og regnetung en given model er, synes ikke at forudsige hvor godt en model klarer sig i matematik-prøverne.

Undersøgelsens sværvægter Open AI’s o1-Pro model, scorer her alene 1,2 points points til trods for, at den forbruger for 203 dollar af AI-tokens.

Det er samme resultat som den kinesiske QwQ-model signeret af Alibaba, som kræver for 0,42 dollar regnekraft for at opnå en tilsvarende score.

Fælles for modellerne er, at deres evne til at vurdere egen performance og validere egne resultater er overdreven.

Den fulde undersøgelse kan granskes her.

De matematiske udfordringer og svar på disse kan findes her.

Læses lige nu

    Event: Cyber Security Festival 2026

    Sikkerhed | København

    Mød Danmarks skrappeste it-sikkerhedseksperter og bliv klar til at planlægge og eksekvere en operationel og effektiv cybersikkerhedsstrategi, når vi åbner dørene for +1.700 it-professionelle. Du kan glæde dig til oplæg fra mere end 70 talere og møde mere end 50 leverandører over to dage.

    18 & 19 november 2026 | Gratis deltagelse

    Navnenyt fra it-Danmark

    Immeo har pr. 1. maj 2026 ansat Sofie Amalie Buur som Consultant. Hun kommer fra en stilling som Frontend Engineer & UI/UX Designer hos Valyrion. Hun er uddannet Cand.it. Softwaredesign ved ITU. Nyt job
    Steen Marquard,  Jabra, er pr. 15. juni 2026 udnævnt som Regional President for Norden og UK. Han er uddannet HD(O). Han beskæftiger sig med I sin nye rolle får Steen ansvar for at videreudvikle salget af virksomhedens professionelle lyd- og videoløsninger, samt styrke samarbejdet med channel teams og partnere på tværs af regionen. Udnævnelse
    Netip A/S har pr. 1. juni 2026 ansat Kristina Svingel Jeppesen som bogholder ved netIP's kontor i Thisted. Hun kommer fra en stilling som Kontorassistent hos DFI Geisler. Nyt job
    Sharp Consumer Electronics har pr. 1. april 2026 ansat Daniel Eriksson som salgsdirektør for de nordiske lande. Han skal især beskæftige sig med at accelerere virksomhedens vækst i Norden. Han kommer fra en stilling som nordisk salgsdirektør hos Hisense. Han har tidligere beskæftiget sig med detailhandel, kommerciel strategi og markedsudvidelser med bemærkelsesværdige resultater til følge. Nyt job

    Daniel Eriksson

    Sharp Consumer Electronics