Her må selv de førende AI-tjenester give op: OpenAI’s hundedyre Pro-model klarer sig dårligst

Klodens førende AI-modeller dumper alle med et brag, når de sættes til at løse avancerede matematiske opgaver.

01. april 2025 kl. 16.52

Artikel top billede

(Foto: Zac Wolff/Unsplash)

Niels de Boissezon

Niels de Boissezon Teknologiredaktør

Selvom generativ AI-tjenester såsom OpenAI’s ChatGPT og Googles Gemini bliver stadigt bedre til at klare opgaver, er der stadigt områder, som kan give de alvidende modeller store udfordringer.

Det viser et nyt forskningsstudie fra amerikanske Cornell University, hvor klodens nyeste og mest avancerede modeller sættes til at løse opgaverne i den seneste runde af USA’s matematik olympiader, USAMO 2025.

Her viser alle modellerne at have det ualmindeligt svært ved at løse opgaverne, som kendetegnes ved at kræve logisk konsistens, kreativ tænkning og selvindsigt.

Igen af modellerne formår at levere bare fem procent rigtige svar, med DeepSeek R1 som topscoreren med 2,0 points ud af 42 mulige.

Dyrest er dårligst

Hvor avanceret og regnetung en given model er, synes ikke at forudsige hvor godt en model klarer sig i matematik-prøverne.

Undersøgelsens sværvægter Open AI’s o1-Pro model, scorer her alene 1,2 points points til trods for, at den forbruger for 203 dollar af AI-tokens.

Det er samme resultat som den kinesiske QwQ-model signeret af Alibaba, som kræver for 0,42 dollar regnekraft for at opnå en tilsvarende score.

Fælles for modellerne er, at deres evne til at vurdere egen performance og validere egne resultater er overdreven.

Den fulde undersøgelse kan granskes her.

De matematiske udfordringer og svar på disse kan findes her.

Artikel teaser billede

Systematic lander aftale med den australske hær

Seneste nyt

|Vis seneste uge

Læses lige nu

Web og internet

Googles nye AI-søgninger har dramatiske konsekvenser: I nogle brancher er trafikken nærmest kollapset

Artikel teaser billede

Vi måler AI-brug. Men det er ikke nødvendigvis det, der afgør, om organisationen bliver dygtigere

Artikel teaser billede

At implementere en avanceret AI-løsning er ikke i sig selv en strategi

Artikel teaser billede

Fortrolige oplysninger om tusindvis af danskeres pensionsformuer er blevet lækket

Artikel teaser billede

Kunstig intelligens

Et amerikansk totalforbud mod kinesiske AI-modeller kan være på vej

Annonce

Cyber Security Festival 2026

Event: Cyber Security Festival 2026

Sikkerhed | København

Mød Danmarks skrappeste it-sikkerhedseksperter og bliv klar til at planlægge og eksekvere en operationel og effektiv cybersikkerhedsstrategi, når vi åbner dørene for +1.700 it-professionelle. Du kan glæde dig til oplæg fra mere end 70 talere og møde mere end 50 leverandører over to dage.

18 & 19 november 2026 | Gratis deltagelse

Artikel teaser billede

Debatten raser - skal vi forbyde Metas AI-briller: "Hvorfor tillader vi et produkt, der kunne være hentet direkte fra et afsnit af Black Mirror"

Artikel teaser billede

Test: Ny tv-teknologi giver dig det bedste allround-billede lige nu

Paychex Europe

Frontend Lead Developer for Emply at Paychex Europe

Københavnsområdet

Capgemini Danmark A/S

AI/Data Engineer

Københavnsområdet

Statens IT

Netscaler specialist til Statens It

Københavnsområdet

Netcompany A/S

Microsoft Operations Engineer

Københavnsområdet

Se flere it-stillinger

Artikel teaser billede

Skygge-AI er også udbredt i topledelsen: Din chef bryder dobbelt så ofte it-afdelingens AI-regler

Artikel teaser billede

Ny britisk premierminister dropper storstilet it-projekt

Artikel teaser billede

Elnettet er Danmarks digitale flaskehals

Navnenyt fra it-Danmark

Netip A/S har pr. 1. maj 2026 ansat Ida Hyllested Friis som Key Account Manager ved netIP's kontor i Thisted. Hun kommer fra en stilling som Key Account Manager hos Københavns erhvervshus.

Nyt job

Ida Hyllested Friis

Netip A/S

Jakob Dirksen, SVP, Nordic Customer Delivery & Operations hos GlobalConnect, er pr. 1. maj 2026 forfremmet til EVP, Infrastructure Delivery & Operations. Han skal fremover især beskæftige sig med at lede Infrastructure Delivery & Operations, der har til opgave at drive og udvikle fibernetværket på tværs af virksomheden.

Forfremmelse

GlobalConnect

Steen Marquard, Jabra, er pr. 15. juni 2026 udnævnt som Regional President for Norden og UK. Han er uddannet HD(O). Han beskæftiger sig med I sin nye rolle får Steen ansvar for at videreudvikle salget af virksomhedens professionelle lyd- og videoløsninger, samt styrke samarbejdet med channel teams og partnere på tværs af regionen.

Udnævnelse

Jabra

TDC Erhverv har pr. 1. maj 2026 ansat Peter Bjerregaard Harden som Senior Vice President (SVP), Enterprise Sales. Peter skal især beskæftige sig med at drive transformationen mod at blive en førende, kundecentreret partner inden for Cloud, Cyber og integrerede ICT-løsninger. Peter kommer fra en stilling som Country Manager hos Google Cloud Danmark. Peter er uddannet Cand. Merc (AU), HD, Organisation og Ledelse (CBS), Bestyrelsesuddannelse (CBS). Peter har tidligere beskæftiget sig med at opbygge Google Cloud i Danmark samt roller hos Microsoft, Salesforce og i management consulting.

Nyt job

Peter Bjerregaard Harden

TDC Erhverv

Se mere fra navnenyt

Artikel teaser billede

Linus Torvalds sætter foden ned i et nyt opråb: Linux er ikke et anti-AI-projekt

Artikel teaser billede

Ny The Big Bang Theory-spinoff byder på parallelle universer, action og lidt af en antihelt

Artikel teaser billede

Token-udgifterne eksploderer, men de dyre frontier-modeller er stadigvæk prisen værd, mener flere virksomheder

Artikel teaser billede

Google tvinges til at ændre sin forretningsmodel i Europa: Skal dele søgedata med konkurrenter

Artikel teaser billede

Test: Dansk trådløs højttaler barberer funktionerne ned til et minimum og kvitterer med uforfalsket lyd med smæk på

Artikel teaser billede

Nørgaard: Kloden bliver varmere, tale-maskerne kommer, ungerne fejler ikke noget, og Mortens fem høns slog både min sniksnak om STADS og robotplæneklipperen

Computerworld

Opinion

Artikel teaser billede

NIS2 gjorde din cloud til bestyrelsens problem. Brug det

Artikel teaser billede

Hvem passer it-sikkerheden i sommerferien hos din virksomhed?

Angriberne bryder ikke ind — de logger ind

Nye EU-initiativer stiller krav til danske myndigheders AI-infrastruktur

Kvantesikkerhed er ikke science fiction: Dine data kan blive stjålet i dag og åbnet i morgen

Artikel teaser billede

Nørgaard: Chok! Et offentligt it-system er kommet skidt fra start

Artikel teaser billede

Digital suverænitet: Derfor er kortlægning helt central - sådan bør du gribe det an

Artikel teaser billede

Er du helt sikker på, dit cyberberedskab er klar, når du sætter autosvaret til?

Artikel teaser billede

Digital suverænitet

Europas største flyproducent migrerer 70 kritiske it-systemer ud af Trumps greb: Data skal være "under europæisk kontrol"

Annonce

Stor kortlægning: Her er de 100 mest magtfulde it-personer i Danmark - se hele listen her

Mest læste

1 Googles nye AI-søgninger har dramatiske konsekvenser: I nogle brancher er trafikken nærmest kollapset

2 Fortrolige oplysninger om tusindvis af danskeres pensionsformuer er blevet lækket

3 Test: Ny tv-teknologi giver dig det bedste allround-billede lige nu

4 Debatten raser - skal vi forbyde Metas AI-briller: "Hvorfor tillader vi et produkt, der kunne være hentet direkte fra et afsnit af Black Mirror"

5 Ny britisk premierminister dropper storstilet it-projekt

6 Et amerikansk totalforbud mod kinesiske AI-modeller kan være på vej

7 Vi måler AI-brug. Men det er ikke nødvendigvis det, der afgør, om organisationen bliver dygtigere

8 Skygge-AI er også udbredt i topledelsen: Din chef bryder dobbelt så ofte it-afdelingens AI-regler