Her må selv de førende AI-tjenester give op: OpenAI’s hundedyre Pro-model klarer sig dårligst

Klodens førende AI-modeller dumper alle med et brag, når de sættes til at løse avancerede matematiske opgaver.

Artikel top billede

(Foto: Zac Wolff/Unsplash)

Selvom generativ AI-tjenester såsom OpenAI’s ChatGPT og Googles Gemini bliver stadigt bedre til at klare opgaver, er der stadigt områder, som kan give de alvidende modeller store udfordringer.

Det viser et nyt forskningsstudie fra amerikanske Cornell University, hvor klodens nyeste og mest avancerede modeller sættes til at løse opgaverne i den seneste runde af USA’s matematik olympiader, USAMO 2025.

Her viser alle modellerne at have det ualmindeligt svært ved at løse opgaverne, som kendetegnes ved at kræve logisk konsistens, kreativ tænkning og selvindsigt.

Igen af modellerne formår at levere bare fem procent rigtige svar, med DeepSeek R1 som topscoreren med 2,0 points ud af 42 mulige.

Dyrest er dårligst

Hvor avanceret og regnetung en given model er, synes ikke at forudsige hvor godt en model klarer sig i matematik-prøverne.

Undersøgelsens sværvægter Open AI’s o1-Pro model, scorer her alene 1,2 points points til trods for, at den forbruger for 203 dollar af AI-tokens.

Det er samme resultat som den kinesiske QwQ-model signeret af Alibaba, som kræver for 0,42 dollar regnekraft for at opnå en tilsvarende score.

Fælles for modellerne er, at deres evne til at vurdere egen performance og validere egne resultater er overdreven.

Den fulde undersøgelse kan granskes her.

De matematiske udfordringer og svar på disse kan findes her.

Læses lige nu
    Computerworld Events

    Vi samler hvert år mere end 6.000 deltagere på mere end 70 events for it-professionelle.

    Ekspertindsigt – Lyt til førende specialister og virksomheder, der deler viden om den nyeste teknologi og de bedste løsninger.
    Netværk – Mød beslutningstagere, kolleger og samarbejdspartnere på tværs af brancher.
    Praktisk viden – Få konkrete cases, værktøjer og inspiration, som du kan tage direkte med hjem i organisationen.
    Aktuelle tendenser – Bliv opdateret på de vigtigste dagsordener inden for cloud, sikkerhed, data, AI og digital forretning.

    Sikkerhed | København

    Strategisk It-sikkerhedsdag 2026 - København

    Få overblik over cybersikkerhedens vigtigste teknologier, trusler og strategiske valg. Hør skarpe oplæg om AI-risici, forsvar, compliance og governance. Vælg mellem to spor og styrk både indsigt og netværk. Deltag i København 20. januar.

    Andre events | København

    Executive Conversations: Fra hype til afkast – her er vinderne af AI-ræset

    Få et klart overblik over AI’s reelle effekt i danske virksomheder. Arrangementet giver unge talenter og ambitiøse medarbejdere viden, der løfter karrieren, skærper beslutninger og gør dig klar til at præge den digitale udvikling. Læs mere og...

    Sikkerhed | Aarhus C

    Strategisk It-sikkerhedsdag 2026 - Aarhus

    Få overblik over cybersikkerhedens vigtigste teknologier, trusler og strategiske valg. Hør skarpe oplæg om AI-risici, forsvar, compliance og governance. Vælg mellem tre spor og styrk både indsigt og netværk. Deltag i Aarhus 22. januar.

    Se alle vores events inden for it

    KMD A/S

    Cloud-løsningsarkitekt

    Københavnsområdet

    Netcompany A/S

    Operations Engineer til drift af infrastruktur

    Københavnsområdet

    Region Midtjylland

    License Manager med blik for overblik

    Midtjylland

    KMD A/S

    Senior Business Consultant

    Københavnsområdet

    Navnenyt fra it-Danmark

    Netip A/S har pr. 1. november 2025 ansat Kristian Kveiborg Yde som BI-konsulent ved netIP's kontor i Thisted. Han er uddannet med en Cand.merc. i økonomistyring. Nyt job
    Norriq Danmark A/S har pr. 1. september 2025 ansat Hans Christian Thisen som AI Consultant. Han skal især beskæftige sig med at bidrage til udvikling og implementering af AI- og automatiseringsløsninger. Nyt job

    Hans Christian Thisen

    Norriq Danmark A/S

    Netip A/S har pr. 1. november 2025 ansat Nikolaj Vesterbrandt som Datateknikerelev ved netIP's afdeling i Rødekro. Han er uddannet IT-supporter ved Aabenraa Kommune og videreuddanner sig nu til Datatekniker. Nyt job
    Norriq Danmark A/S har pr. 1. oktober 2025 ansat Rasmus Stage Sørensen som Operations Director. Han kommer fra en stilling som Partner & Director, Delivery hos Impact Commerce. Han er uddannet kandidat it i communication and organization på Aarhus University. Han har tidligere beskæftiget sig med med at drive leveranceorganisationer. Nyt job

    Rasmus Stage Sørensen

    Norriq Danmark A/S