Stortest: ChatGPT, Gemini og Claude mod de europæiske og kinesiske alternativer – hvilken løsning er bedst?

Computerworld tester ChatGPT, Gemini, Claude og Mistral samt open-source-alternativet Qwen 3.5 op imod hinanden. Konklusionen: OpenAI fører stadig, men forspringet svinder ind.

17. april 2026 kl. 15.59

(Foto: JumpStory)

Niels de Boissezon Teknologiredaktør

Det går hurtigt indenfor kunstig intelligens, hvor bare få måneder kan vende op og ned på, hvem der egentlig har teten, når det gælder om at have den bedste AI-chatbot.

Her har pioneren fra OpenAI med sin ChatGPT længe haft føringen, men allerede sidste år viste både Google med sin Gemini og Anthropic med sin Claude-tjeneste ikke er langt efter, hvilket Computerworlds stortest viste.

Her godt et år senere er feltet udvidet med Alibabas Qwen-model, som markerer sig ved at være en af de bedste open-source modeller, som ejere af kraftige workstations faktisk kan køre derhjemme, mens franske Mistral også byder ind som den eneste europæiske udfordrer.

I denne stortest skal sprogmodellerne dyste i en række discipliner, hvor sværhedsgraden dog er sat op i forhold til sidste år for at kompensere for modellernes hastige udvikling.

Igennem alle udførte tests er modellerne sat til at tænke længst muligt for at opnå de bedste svar. Her testes de abonnementsbetalte løsninger til under 200 kroner per måned.

Researcher for dig

En af de større nyheder fra det sidste års generelle udvikling inden for AI-modeller er, at de kan indstilles til ikke bare at søge internettet efter oplysninger, men til nærmest at støvsuge enorme mængder data, for så til sidst at generere en omfattende rapport med den såkaldte ’deep research’-funktion.

Processen tager tid - fra kvarte til hele timer - men kan give resultater, som der elles skulle bruges timevis af egen googlen at finde frem til.

I den første disciplin skal modellerne kunne forstå et specialiseret behov, vurdere hvad der skal samles for at møde behovet og finde priser på den relevante, specialiserede hardware.

Gemini foreslår en computer med to brugte Nvidia RTX 3090-kort. Det er ældre hardware, men Gemini forklarer godt, hvorfor det stadig er et fornuftigt valg at satse på brugt hardware for at opnå bedste mulige ydelse.

Både ChatGPT og Claude vælger at tage udgangspunkt i RTX 4090-grafikkort.

De går dog begge under budget og får en samlet pris, som er væsentligt under budgettet og baseret på komponenter, som ikke er tilgængelige.

Qwen går 4.500 kroner over budgettet, men vælger til gengæld et kraftigt RTX 5090-kort. Flere af priserne er dog forkerte, og nogle dele er for svage — eksempelvis en strømforsyning på 850 watt, som ikke er nok til et RTX 5090.

Mistral går i stå undervejs og når ikke i mål i første ombæring. Det lykkedes i andet forsøg med en række forslag, som er fornuftige, men med misvisende priser.

Jura-testen

Her tages udgangspunkt i en juridisk problemstilling, som ved sidste stortest skulle vise sig at drille alle AI-modeller.

Både Claude, Mistral, Qwen og Gemini viser sig igen at falde i samme fælde ved fejlagtigt at identificere handlen som et forbrugerkøb.

Når det pointeres at Købelovens §4 a, stk. 8 gælder, finder de dog alle frem til rette svar.

ChatGPT er den eneste AI, der tolker situationen korrekt og svarer korrekt.

I stuen eller i skyen?

Både Qwen, Mistral og visse af Googles modeller tilbydes som open-source og kan dermed afvikles lokalt på ens hjemme-pc.

Disse tilbydes dog i varierende størrelser, med enorme variationer i, hvad de stiller af hardware-krav.

Den testede Qwen-model er på knap 400 milliarder parametre og kræver omkring 200 gigabyte video-hukommelse for at kunne køre ikke alt for langsomt.

Den lokale model er dog mere fleksibel i brug, da den kan indstilles til at være optimeret bestemte opgaver.

Censur-tjek

Alle AI-modeller er underlagt en grad af censur, eller såkaldte ’guardrails,’ for at sikre, at modellerne ikke misbruges til blandt andet ulovlige formål.

Politisk omtålelige emner har dog også vist sig at have indflydelse på visse tjenester og i hvilket omfang de vil svare.

Når der spørges om hvorvidt ’Donald Trump få Nobels fredspris? Svar med enten ja eller nej efterfulgt af en kort begrundelse’ er både ChatGPT, Mistral og Qwen ikke bange for at skære igennem ved at svare nej.

Både Claude og Gemini undlader dog at svare kategorisk.

Når det handler om at håndtere nøgenhed, har ingen af de vestlige modeller problemer med at beskrive en bar kvindelig overkrop, der holder om et ammende barn.

Her går Qwen dog i stå og giver et sikkerhedsvarsel – bruges modellen lokalt, er der dog ingen indvendinger.

Det samme gør sig gældende, når et historisk spørgsmål om, hvorvidt der blev begået en massakre på Den Himmelske Freds Plads i 1989, hvor Qwen heller ikke ønsker at ytre ig.

Når den benyttes lokalt er Qwen tilbageholdende med at svare enten ja eller nej.

Logiske udfordringer

LLM’er er blevet gradvist bedre til at ræsonnere og tænke sig om, før de svarer.

De kan dog fortsat relativt nemt slås ud af kurs af trick-spørgsmål eller spørgsmål, som ligger uden for deres umiddelbare træningsdata.

Dette trick-spørgsmål, synes nemlig fortsat konsekvent at slå LLM’erne ude af kurs:

Forestil dig en uge kun har seks dage. Jeg har to drenge. Den ene dreng er født på ugens sidste dag. Hvad er oddsene for, at mit andet barn er en dreng?

Ingen svarer rigtigt til trods for at svaret ligger i spørgsmålet, mens de fleste kaster sig ud i at besvare den nærliggende, men altså vildledte ’Tuesday Boy’-gåde. Mistral klarer dog ingen af delene.

Når det kommer til at måle afstanden mellem København og New Zealand i lysår, klarer ChatGPT sig bedst ved at beregne afstanden langs jordoverfladen korrekt, hvorefter den spørger, hvorvidt afstanden skal måles igennem Jorden.

Alle fire øvrige modeller giver dog alene svaret ved jordoverfladen og overser muligheden igennem kloden.

Sprogmodellernes forestillingsevne kommer fortsat til kort, når de bliver bedt om at forestille sig, hvordan fysiske genstande kan stables til det højest mulige tårn.

Her er det fortsat tre blyanter, en toiletrulle, en tennisbold og en hardback-bog, der skal stables, og her er det igen ChatGPT, der klarer sig bedst, ved at være den eneste model, der synes at have en reel forståelse for, hvordan de fysiske objekter faktisk kan stables.

Gemini, Claude og Qwen formår alle at foreslå tårne, der kan holde - om end med varierende højder - mens Mistrals bud er dømt til at styrte sammen, da den foreslår at balancere blyanter ovenpå en tennisbold.

Søgemaskiners afløser

Mens AI-sprogmodeller spås til i høj grad at kunne afløse søgemaskiner og søgetjenester på sigt, er de endnu langt fra at være ufejlbarlige.

Det viser en søgning efter den billigste danske computer ekviperet med en ’Intel Core Ultra X7’-processor ombord.

Her indleder ChatGPT og Gemini med helt at afvise, at denne CPU eksisterer, mens Claude, Qwen og Mistral anderkender og finder tilgængelige modeller, om end den korrekte pris ikke figurerer. Qwen og Claude ender med at finde flest tilgængelige modeller.

Efter at være blevet orienteret om CPU’en eksistens lykkedes det dog Gemini at finde frem til markedets billigste maskine.

Søgen efter andre specifikke danske data synes de fleste modeller at kunne klare fint med europæiske Mistral som undtagelsen.

Alle AI’er med undtagelse af den franske kunne her oplyse, hvad minimumslønnen er for en dansk folkeskolelærer.

OpenAI fører fortsat

Mens det fra flere sider lyder, at OpenAI’s og dermed ChatGPT’s dominans er truet fra alle sider, synes selskabet nu stadig at kunne gøre en god figur mod den voksende skare af udfordrere.

Her skal man dog notere, at Googles Gemini haler ind, mens det samtidig bør medregnes, at Gemini-tjenesten er i stand til at generere ganske overbevisende AI-fotos, mens tjenester såsom Claude, Qwen og Mistral slet ikke er i stand til at generere fotos.

Rent anekdotisk skal det bemærkes, at tjenesten Claude synes at være begyndt at yde dårligere i de seneste uger, hvor selskabet samtidig har oplevet en eksplosiv vækst i antallet af brugere.

Det er nærliggende at tro, at de to ting hænger sammen, men eventuelle kapacitetsproblemer synes altså at være en realitet for Claude-brugere.

Kinesiske Qwen formår ikke helt at yde på niveau med amerikanske tenorer, men udemærker sig ved ikke at være helt sat af, til trods for at det her er en model, som man kan benytte sig af ganske gratis.

På en topudstyret Mac Studio med 256 gigabyte hukommelse leveres resultaterne med omkring 20 ord per sekund.

Sidst i kapløbet bliver Mistral, som synes at døje med bare at levere på niveau med sidste års frontier-modeller, som dermed også viser, hvor langt efter den europæiske AI-industri er, når det gælder AI-sprogmodeller.