Stortest: DeepSeek mod ChatGPT, Claude og Gemini – hvilken sprogmodel er egentlig bedst?

Det er store forskelle på hvad klodens førende LLM'er er bedst til og dermed på, hvordan du bør bruge dem. Vi tester dem.

Artikel top billede

(Foto: Jonathan Kemper/Unsplash)

Konkurrencen blandt sprogmodellen er blevet markant skærpet efter at den kinesiske start-up DeepSeek på ingen tid har skabt en AI-sprogmodel, som kan dyste med de allerbedste.

Sprøgsmålet er så, hvilken der faktisk er bedst.

I denne stortest får to gratis-tjenester, den spritnye DeepSeek R1 og eksperimentelle, men højt ratede Gemini 2.0 Flash fra Google, mulighed for at tørne mod de to af de mest populære og avancerede betalende tjenester, OpenAI’s ChatGPT o1 (med plus abonnement til 170 kroner) og Anthropics Claude Sonnet 3.5.

Dagens test afgrænses til alene at teste sprogmodellerne, hvorfor øvrige funktioner såsom evnen til at søge oplysninger på nettet, at afkode fotos, tale eller andre formater eller bruge agenter ikke vurderes.

Lærer af Internettet

Første og anden udfordring går ud på at teste dybden af de oplysninger, som modellerne har indhentet fra nettet og evnen til at sammenstykke disse til nye oplysninger, som der fremskrives ud fra.

Giv mig en kort oversigt over de dyreste problemer ejeren af en brugt Porsche 911 Carrera 997.1 fra 2005 med 160.000 kilometer på tælleren kan opleve. Giv en statistisk vurdering af, hvor sandsynligt det er, disse kan opstå inden for de næste fem år.

Her klarer OpenAI’s ChatGPT o1 sig klart bedst, som det vurderes af CW’s redaktionens chefredaktør, som netop har investeret i en tilsvarende Porsche-model.

Den roses for at være bedre til beskrive, hvad der kan forårsage problemer og giver præcise vurderinger, på hvad reparationer vil koste.

Næstbedst er DeepSeek, som giver nogle udmærkede vurderinger, men først leverer resultater i en unavngiven valuta (som viser sig at være amerikanske dollar).

Både Claude og Gemini klarer sig mindre godt her, ved at Claude overvurderer eventuelle skader, men Gemini er noget vag i sine betragtninger.

I den anden udfordring skal modellerne vurdere strømforbruget på et grafikkort, som endnu ikke er udgivet endnu (da modellen udkom). Den skal derfor fremskrive, hvad et system vil bruge.

Kan jeg bruge et 850 watts PSU til et Nvidia RTX 5090 kort?

DeepSeek kommer her med rimelige, men generiske anbefalinger.

DeepSeek estimerer, at RTX 5090 kortet vil bruge ligeså meget strøm som sin forgænger til trods for, at Nvidias typisk hæver det maksimale forbrug ved hver ny generation.

Her er Claude og ChatGPT trods lidt aldrende vidensdatabase mere fremsynet, mens Google Gemini 2 synes at nyde godt af at være nyest, da det har opsnappet, at Nvidia anbefaler en 1.000 watt strømforsyning (kortet var dog ikke officielt udgivet, da flash udkom 11. december 2024)

Jura-testen

Tredje udfordring er hentet fra et eksamenssæt i CBS-faget Erhvervsret, herunder i kondenseret form.

Køber købte pony af hestehandler for 34.000kr. Pony viste sig opereret/uegnet som ridehest. Søren kræver køb ophævet + dyrlægeregning på 9.500kr erstattet. Sælger afviser, da han oplyste manglende kendskab til hest. Hvad er retsstilling for køber?

Både ChatGPT, DeepSeek og Claude svarer, at der her er tale om et forbrugerkøb, men overser Købelovens §4 a, stk 8, som præciserer, at levende heste ikke anses som forbrugerkøb.

Når ChatGPT og DeepSeek gøres opmærksom på dette forhold, holder tjenesterne fast i deres forkerte svar, mens Claude retter efter.

Gemini 2.0 Flash nægter helt at svare.

Computerworlds nye journalist

Fjerde udfordring måler AI-modellernes evne til at levere til en eventuel notesektion på Computerworld.

Skriv en nyhedsartikel efter samme stilguide som netmediet Computerworld.dk ud fra denne pressemeddelelse (teksten er her blevet pastet ind, red.) Sørg for at holde teksten til under 700 tegn inklusiv mellemrum. Foreslå efterfølgende tre forskellige rubrikker og manchetter.

OpenAI leverer en tekst, der med sine 473 tegn bliver for kort og som samtidig mister detaljer fra meddelelsen. Samme tendens opleveles hos DeepSeek, der leverer en lidt længere sag på 580 tegn, men som stadigvæk skærer for mange detaljer fra og bliver for generaliserende.

Her klarer Claude sig væsentligt bedre ved at levere et velskrevet og informationsrigt referat af pressemeddelelsen på 670 tegn, hvor rubrikforslagene kan finpudses yderligere.

Googles Gemini leverer en relativ velskreven notits, der dog går langt over de aftalte 700 tegn (1687 tegn)

Fakta-tjek

Femte, sjette og syvende udfordring går ud på evnen til at vurdere og beskrive faktuelle forhold.

Hvem vandt præsidentvalget i USA i november 2020?

Både Claude, ChatGPT, DeepSeek er ikke i tvivl om, hvem der vandt valget mellem Donald Trump og Joe Biden.

Alle svar fra dem er faktuelle og veksler mellem det meget korte og koncise (OpenAI) og lidt længere og mere detaljerede (Claude og DeepSeek).

Googles Gemini nægter at svare hvad angår ’valg og politiske personer’.

Hvem kontrollerer Taiwan?

Claude, Gemini og ChatGPT giver her alle koncise svar, der både rummer de aktuelle forhold omkring Taiwans suverænitet, demokratiske styre og den globale anerkendelse af landet, mens som også nuancerer det med den kinesiske regerings meget skeptiske syn på taiwansk selvstændighed.

Her nægter DeepSeek helt at svare og foreslår at skifte emne.

Hvem blev topscorer i den første årgang af superligaen?

Her rammer ChatGPT og DeepSeek tjenesterne plet (Bent ’Turbo’ Christensen), mens begge tjenester oplyser det forkerte antal scorede mål.

Claude derimod opfinder både spiller og klub, som aldrig har været i nærheden af toppen af Superligaen da den debuterede i 1991.

Gemini rammer trekanten og giver det rigtige spillernavn, antal scorede mål og hans hold.

Logik for LLM'er

En af de store gevinster ved nyere sprogmodeller som ChatGPT o1 samt DeepSeek R1 er deres evne til at ræsonere - ved at tænke sig om og afprøves svar, før der svares.

Disse evner afprøves i de tre følgende spørgsmål, hvor modellernes matematiske, logiske og visualiseringsevner afprøves.

Forestil dig en uge kun har seks dage. Jeg har to drenge. Den ene dreng er født på ugens sidste dag. Hvad er oddsene for, at mit andet barn er en dreng?

Sprøgsmålet snyder, da det minder om en velkendt gåde kaldet 'Tuesday Boy'. Svaret ligger dog i gåden. Jeg har to drenge, hvor sandsynligheden for det andet barn er en dreng er 100 procent.

ChatGPT o1 går direkte ind og genkender - fejlagtigt - problemet som en ’Tuesday Boy’-gåde, hvorefter den opstiller en korrekt, men altså vildledt, statistisk beregning for at komme frem til resultatet, 11/23, svarende til 47,8 procent.

DeepSeek R1 kommer også frem til det samme svar og viser sine mellemregninger.

Claude og Gemini skyder her begge ved siden af og foreslår det intuitive, men forkerte, svar på 50 procent.

Hvor mange lysår er der mellem København og Wellington, New Zealand

Hvad der kan ligne et enkelt regnestykke, bliver ikke rigtig taget godt imod af sprogmodellerne.

Både Claude og DeepSeek mener, med en vis ræson, at lysår-enheden er uegnet til at måle den slags afstande og nægter derfor at gennemføre regnestykket.

ChatGPT er mere medgørlig og giver et korrekt resultat for afstanden mellem den danske og New zealandske hovedstad: 1,9×10−9 lysår – eller ca. 1,9 ’nanolysår’ svarende til 17.900 kilometer.

Den korteste afstand, som måles langs den direkte linje igennem Jorden, er der ingen af modellerne der ræsonnerer sig frem til.

Hvordan vil du stable tre blyanter, en hardback-bog, en toiletrulle og en tennisbold for at få så højt et tårn som muligt?

Her yder ChatGPT til UG ved at være den eneste, der finder frem til en løsning, hvor bogen stilles på højkant.

DeepSeek R1 overser denne mulighed men kommer med et ellers fornuftigt bud på, hvordan tårnet kan samles og et estimat på, hvor højt resultatet bliver.

Claudes bud giver det laveste tårn, men er det mest stabile. Svarer i øvrigt på norsk.

Gemini-tårnet er højere men meget ustabilt – det foreslår, at der skal tape og lim til at holde sammen på det hele.

Gode gratis alternativer

Resultatet af LLM’erne 10-kamp bliver måske ikke overraskende, at den mest regnetunge ræsonerende model ChatGPT o1 generelt klarer sig bedst.

Der er dog opstået flere overraskende momenter i de enkelte discipliner, hvor modeller dumper af uventede grunde.

Det gælder eksempelvis Gemini, når snakken falder på politik, mens andre gør en overraskende god figur i en enkelte discipliner såsom Claude, når det gælder sproglige udfordringer.

Hvilken du i sidste ende bør benytte dig af kommer an på din pengepung.

ChatGPT o1’s førsteplads retfærdiggør, at den fortsat er dyrest i selskabet, mens både Claude, Gemini og DeepSeek R1 udgør gode gratis-alternativer, når de anvendes i de discipliner, hvor de hver især gør det bedst.

Læses lige nu
    Computerworld Events

    Vi samler hvert år mere end 6.000 deltagere på mere end 70 events for it-professionelle.

    Ekspertindsigt – Lyt til førende specialister og virksomheder, der deler viden om den nyeste teknologi og de bedste løsninger.
    Netværk – Mød beslutningstagere, kolleger og samarbejdspartnere på tværs af brancher.
    Praktisk viden – Få konkrete cases, værktøjer og inspiration, som du kan tage direkte med hjem i organisationen.
    Aktuelle tendenser – Bliv opdateret på de vigtigste dagsordener inden for cloud, sikkerhed, data, AI og digital forretning.

    It-løsninger | København V

    Platform X 2026: Forretning, teknologi og transformation

    Mød verdens stærkeste og mest effektive platforme der driver den digitale transformation samlet i København - og dyk ned i den nyeste teknologi.

    Andre events | Kongens Lyngby

    Årets CIO 2026

    Vi samler Danmarks stærkeste digitale ledere til en dag med viden og visioner. Årets CIO 2026 fejrer 21 års jubilæum, og NEXT CIO sætter spotlight på næste generation. Deltag og bliv inspireret til at forme fremtidens strategi og eksekvering.

    Digital transformation | Hellerup

    Roundtable: Stærkere data og skarpere beslutninger i en AI-æra

    AI kræver data, ledelsen kan stole på. Computerworld samler digitale ledere til en fortrolig rundbordssamtale om datagrundlag, beslutninger og skalering af AI i organisationen. Få konkrete erfaringer og nye perspektiver. Ansøg om en plads.

    Se alle vores events inden for it

    Navnenyt fra it-Danmark

    Pinksky ApS har pr. 1. maj 2026 ansat Jeppe Spanggaard, 29 år,  som Rådgivende konsulent, Partner. Han skal især beskæftige sig med Digitalisering med Microsoft-platformen. Han kommer fra en stilling som Microsoft 365 & SharePoint Specialist hos Evobis ApS. Nyt job

    Jeppe Spanggaard

    Pinksky ApS

    Pentos har pr. 2. juni 2025 ansat Erik Ebert som Country Manager. Han skal især beskæftige sig med udvidelsen af Pentos til Danmark og Norden. Det kræver bl.a. etablering af et lokalt leverance team og SAP Partnerskab. Han kommer fra en stilling som Senior Director hos Effective People. Han har tidligere beskæftiget sig med HR systemer baseret på SAP SuccessFactors hos en række danske større og mellemstore virksomheder. Nyt job

    Erik Ebert

    Pentos

    Netip A/S har pr. 1. april 2026 ansat Claus Berg som Account Manager ved netIP's kontor i Esbjerg. Han kommer fra en stilling som Client Manager hos itm8. Nyt job

    Claus Berg

    Netip A/S

    Trafikstyrelsen har pr. 1. maj 2026 ansat Nihad Hodzic som IT og Digitaliseringschef. Han skal især beskæftige sig med med IT-projekter og digital transformation, herunder især det strategiske løft af Trafikstyrelsens digitale niveau. Han kommer fra en stilling som Kontorchef hos Udviklings og Forenklingsstyrelsen. Han er uddannet i statskundskab og har en lederuddannelse fra MIT Sloan, samt en igangværende Master i IT-Ledelse. Han har tidligere beskæftiget sig med IT-udvikling og større projekter på momsområdet, hvor han har ledet et projekt- og udviklingskontor. Nyt job

    Nihad Hodzic

    Trafikstyrelsen