Artikel top billede

(Foto: Zac Wolff/Unsplash)

Her må selv de førende AI-tjenester give op: OpenAI’s hundedyre Pro-model klarer sig dårligst

Klodens førende AI-modeller dumper alle med et brag, når de sættes til at løse avancerede matematiske opgaver.

Selvom generativ AI-tjenester såsom OpenAI’s ChatGPT og Googles Gemini bliver stadigt bedre til at klare opgaver, er der stadigt områder, som kan give de alvidende modeller store udfordringer.

Det viser et nyt forskningsstudie fra amerikanske Cornell University, hvor klodens nyeste og mest avancerede modeller sættes til at løse opgaverne i den seneste runde af USA’s matematik olympiader, USAMO 2025.

Her viser alle modellerne at have det ualmindeligt svært ved at løse opgaverne, som kendetegnes ved at kræve logisk konsistens, kreativ tænkning og selvindsigt.

Igen af modellerne formår at levere bare fem procent rigtige svar, med DeepSeek R1 som topscoreren med 2,0 points ud af 42 mulige.

Dyrest er dårligst

Hvor avanceret og regnetung en given model er, synes ikke at forudsige hvor godt en model klarer sig i matematik-prøverne.

Undersøgelsens sværvægter Open AI’s o1-Pro model, scorer her alene 1,2 points points til trods for, at den forbruger for 203 dollar af AI-tokens.

Det er samme resultat som den kinesiske QwQ-model signeret af Alibaba, som kræver for 0,42 dollar regnekraft for at opnå en tilsvarende score.

Fælles for modellerne er, at deres evne til at vurdere egen performance og validere egne resultater er overdreven.

Den fulde undersøgelse kan granskes her.

De matematiske udfordringer og svar på disse kan findes her.




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Brother Nordic A/S
Import og engroshandel med kontormaskiner.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Cyber Briefing: Geopolitik og cloud

Private vs. public cloud - hybride løsninger der sikrer kritiske data. Overvejer din organisation at vende de amerikanske cloud-giganter i ryggen set i lyset af den geopolitiske situation? Vi dykker ned i en dugfrisk rapport og diskuterer mulighederne for en "Plan B".

05. maj 2025 | Læs mere


Virksomhedsplatforme i forandring: Hvordan navigerer du i den teknologiske udvikling?

Hvordan finder du balancen mellem cloud- og hybride løsninger? Hvordan integrerer du legacy-applikationer ind i dit nye ERP-setup? Hvordan undgår du at havne i statistikken over store ERP-projekter, der fejler eller overskrider budgetterne?

06. maj 2025 | Læs mere


Virksomhedsplatforme i forandring: Hvordan navigerer du i den teknologiske udvikling?

Hvordan finder du balancen mellem cloud- og hybride løsninger? Hvordan integrerer du legacy-applikationer ind i dit nye ERP-setup? Hvordan undgår du at havne i statistikken over store ERP-projekter, der fejler eller overskrider budgetterne?

14. maj 2025 | Læs mere