OpenAI's oversete paradigmeskifte: o1 - det betyder den nye måde at lave sprogmodeller på

Klumme: OpenAI er begyndt at lave store sprogmodeller på en helt ny måde - og det er et paradigmeskifte. Læs her, hvad det kommer til at betyde.

Artikel top billede

Denne klumme er et debatindlæg og er alene udtryk for forfatterens synspunkter.

GPT-modellerne har altid været OpenAIs præmiemodel inden for store sprogmodeller.

De har været målestokken for de alternative modeller fra konkurrenterne, de mest anvendte og udbredte, og dem som har haft den stærkeste performance på stort set alle metrikker.

Så det ville da være lidt af en verdensnyhed, mange ville lægge mærke til, hvis OpenAI introducerede en hel ny måde at lave store sprogmodeller (LLMs) på, hvis tidlige version allerede kunne overgå selv de stærkeste GPT-modeller vi har i dag?

Måske - har du hørt om o1? For det er lige, hvad der sker med den.

I stedet for at hedde GPT-5 eller GPT-4.5 er o1 navngivet som den første af en ny række modeller, for at formidle det paradigmeskifte den repræsenterer – det er simpelthen en ny måde at lave store sprogmodeller på, som er baseret på chain-of-thought og Reinforcement Learning, men hvad betyder det?

Modellen virker mere eftertænksom

Alle brugere i ChatGPT kan allerede prøve en preview-version af o1.

Stiller man den spørgsmål vil man opdage at den er længe om at svare, men kommer med stærkere svar, med en tilhørende tankerække.

Man kan udfolde dens ”tankeproces”, inden for chain-of-thought og se, hvordan den er nået frem til sit svar.

Her antager modellen, at afstanden mellem byerne er 100 kilometer, men den er også nødt til at kende en afstand for at lave beregningerne.

Men det er processen og ikke svaret, der er interessant her.

I højre side ses den førnævnte ”tankeproces”, som er baseret på den nævnte chain-of-thought – altså den logiske tankerække der i flere skridt leder til det rigtige svare.

Reinforcement Learning på Chain-Of-Thought

Det kan være lidt svært at forstå, men o1 er delvist trænet ved selv at skulle prøve at nå frem til de rette konklusioner i chain-of-thought (CoT).

Det betyder ikke, at den kan tænke da det fortsat er logisk atomisme (se også min første klumme herom).

Men det betyder, at den kan træne sig selv og øve sig i at ræsonnere i CoT ved at se eksempler på korrekte ræsonnementer, og ret interessant – potentielt blive bedre end sine træningseksempler.

Det er denne anvendelse af Reinforcement Learning på CoT, som udgør et paradigmeskifte inden for store sprogmodeller, og det betyder også, at der gælder nogle nye anvendelser og perspektiver for denne type modeller, man skal være opmærksom på.

Afgørende forskelle ved o1

Én ting er, at man nu kan se mere ind i hvordan den er nået frem til sine resultater ved at kigge på ”tankerækken”, og OpenAI fremhæver også gerne dette, som en vej til en mere sikker anvendelse, da forklarlighed er vigtigt inden for de etiske og juridiske aspekter af store sprogmodeller.

Dette er dog ikke helt firkantet skåret, da det stadig er baseret på deep learning, som har lille til ingen forklaringsstyrke og gennemsigtighed.

Hertil kommer at det også kun er et filtreret resumé af den egentlige tankerække, der vises til brugeren.

Anvendelsen af Reinforcement Learning (RL) er også afgørende for, hvordan modellen kan anvendes.

RL er nemlig bedst anvendt på lukkede matematiske systemer som spil og andre logiske, abstrakte, afgrænsede problemer.

Det betyder konkret, at CoT kun virker optimalt på de problemer, hvor vi kan sige, at der er et rigtigt og forkert svar, så brug o1 på matematiske og logiske problemer, og selvfølgelig især programmeringsspørgsmål.

Er der ikke et rigtigt eller forkert svar, ser man faktisk at GPT-4o er bedre, men ellers er o1 stærkest – selv i den svagere preview-version, vi har adgang til nu:

Uklart, hvad loftet for o1+ vil være

GPT-modellernes udvikling står klart for de fleste eksperter.

Med mere træningsmateriale og flere modaliteter (lyd, billede, video) vil de kun blive bedre, men indtil en vis grænse.

OpenAI CEO Sam Altman har selv tidligere udtalt, at der efter disse skridt, ikke er en plan for, hvordan udviklingen kan tages videre for GPT-modellerne.

Det, jeg synes er mest interessant og tankevækkende, er, at jeg - som forsker og ekspert - der har tænkt over disse ting i årtier, ikke kan se, hvad loftet for o1 og dens efterfølgere kommer til at være.

Netop derfor bør vi i den kommende fremtid være ekstra opmærksomme på denne nye type model, og hvor langt vi kan nå med dens brug af chain-of-thought og Reinforcement Learning.

Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.

Har du en god historie, eller har du specialviden, som du synes trænger til at blive delt?

Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.

Læses lige nu
    Computerworld Events

    Vi samler hvert år mere end 6.000 deltagere på mere end 70 events for it-professionelle.

    Ekspertindsigt – Lyt til førende specialister og virksomheder, der deler viden om den nyeste teknologi og de bedste løsninger.
    Netværk – Mød beslutningstagere, kolleger og samarbejdspartnere på tværs af brancher.
    Praktisk viden – Få konkrete cases, værktøjer og inspiration, som du kan tage direkte med hjem i organisationen.
    Aktuelle tendenser – Bliv opdateret på de vigtigste dagsordener inden for cloud, sikkerhed, data, AI og digital forretning.

    Sikkerhed | Aarhus C

    Identity Festival 2026 - Aarhus

    Er du klar til en dag, der udfordrer din forståelse af, hvad Identity & Access Management kan gøre for din organisation? En dag fyldt med indsigt, inspiration og løsninger, der sætter kursen for, hvordan vi arbejder med IAM i de kommende år.

    It-løsninger | Online

    Business Central 2026: AI, Power Apps og branchemoduler

    Få hands-on viden om, hvordan du kan skalere din virksomhed med AI, Power Apps og branchemoduler i Dynamics 365 Business Central.

    Sikkerhed | København S

    Roundtable: Sådan forbereder du virksomheden på næste trusselsbillede

    Verden er i opbrud. Voldsomme geopolitiske forandringer, fortsat krig i Europa og konstante cyberangreb stiller helt nye krav til danske virksomheder. Trusselsbilledet ændrer sig fra uge til uge - og det kræver både politisk forståelse,...

    Se alle vores events inden for it

    Navnenyt fra it-Danmark

    Thomas Morville Helmert, chefkonsulent hos Rigspolitiet, har pr. 28. januar 2026 fuldført uddannelsen Master i it, linjen i organisation på Aarhus Universitet via It-vest-samarbejdet. Færdiggjort uddannelse
    Immeo har pr. 1. februar 2026 ansat Patricia Oczki som Marketing Manager. Hun kommer fra en stilling som Head of Marketing and Communication hos Coach Solutions. Nyt job
    Mikkel Hjortlund-Fernández, Service Manager hos Terma Group, har pr. 26. januar 2026 fuldført uddannelsen Master i it, linjen i organisation på Aarhus Universitet via It-vest. Foto: Per Bille. Færdiggjort uddannelse