OpenAI's oversete paradigmeskifte: o1 - det betyder den nye måde at lave sprogmodeller på

Klumme: OpenAI er begyndt at lave store sprogmodeller på en helt ny måde - og det er et paradigmeskifte. Læs her, hvad det kommer til at betyde.

Artikel top billede

Denne klumme er et debatindlæg og er alene udtryk for forfatterens synspunkter.

GPT-modellerne har altid været OpenAIs præmiemodel inden for store sprogmodeller.

De har været målestokken for de alternative modeller fra konkurrenterne, de mest anvendte og udbredte, og dem som har haft den stærkeste performance på stort set alle metrikker.

Så det ville da være lidt af en verdensnyhed, mange ville lægge mærke til, hvis OpenAI introducerede en hel ny måde at lave store sprogmodeller (LLMs) på, hvis tidlige version allerede kunne overgå selv de stærkeste GPT-modeller vi har i dag?

Måske - har du hørt om o1? For det er lige, hvad der sker med den.

I stedet for at hedde GPT-5 eller GPT-4.5 er o1 navngivet som den første af en ny række modeller, for at formidle det paradigmeskifte den repræsenterer – det er simpelthen en ny måde at lave store sprogmodeller på, som er baseret på chain-of-thought og Reinforcement Learning, men hvad betyder det?

Modellen virker mere eftertænksom

Alle brugere i ChatGPT kan allerede prøve en preview-version af o1.

Stiller man den spørgsmål vil man opdage at den er længe om at svare, men kommer med stærkere svar, med en tilhørende tankerække.

Man kan udfolde dens ”tankeproces”, inden for chain-of-thought og se, hvordan den er nået frem til sit svar.

Her antager modellen, at afstanden mellem byerne er 100 kilometer, men den er også nødt til at kende en afstand for at lave beregningerne.

Men det er processen og ikke svaret, der er interessant her.

I højre side ses den førnævnte ”tankeproces”, som er baseret på den nævnte chain-of-thought – altså den logiske tankerække der i flere skridt leder til det rigtige svare.

Reinforcement Learning på Chain-Of-Thought

Det kan være lidt svært at forstå, men o1 er delvist trænet ved selv at skulle prøve at nå frem til de rette konklusioner i chain-of-thought (CoT).

Det betyder ikke, at den kan tænke da det fortsat er logisk atomisme (se også min første klumme herom).

Men det betyder, at den kan træne sig selv og øve sig i at ræsonnere i CoT ved at se eksempler på korrekte ræsonnementer, og ret interessant – potentielt blive bedre end sine træningseksempler.

Det er denne anvendelse af Reinforcement Learning på CoT, som udgør et paradigmeskifte inden for store sprogmodeller, og det betyder også, at der gælder nogle nye anvendelser og perspektiver for denne type modeller, man skal være opmærksom på.

Afgørende forskelle ved o1

Én ting er, at man nu kan se mere ind i hvordan den er nået frem til sine resultater ved at kigge på ”tankerækken”, og OpenAI fremhæver også gerne dette, som en vej til en mere sikker anvendelse, da forklarlighed er vigtigt inden for de etiske og juridiske aspekter af store sprogmodeller.

Dette er dog ikke helt firkantet skåret, da det stadig er baseret på deep learning, som har lille til ingen forklaringsstyrke og gennemsigtighed.

Hertil kommer at det også kun er et filtreret resumé af den egentlige tankerække, der vises til brugeren.

Anvendelsen af Reinforcement Learning (RL) er også afgørende for, hvordan modellen kan anvendes.

RL er nemlig bedst anvendt på lukkede matematiske systemer som spil og andre logiske, abstrakte, afgrænsede problemer.

Det betyder konkret, at CoT kun virker optimalt på de problemer, hvor vi kan sige, at der er et rigtigt og forkert svar, så brug o1 på matematiske og logiske problemer, og selvfølgelig især programmeringsspørgsmål.

Er der ikke et rigtigt eller forkert svar, ser man faktisk at GPT-4o er bedre, men ellers er o1 stærkest – selv i den svagere preview-version, vi har adgang til nu:

Uklart, hvad loftet for o1+ vil være

GPT-modellernes udvikling står klart for de fleste eksperter.

Med mere træningsmateriale og flere modaliteter (lyd, billede, video) vil de kun blive bedre, men indtil en vis grænse.

OpenAI CEO Sam Altman har selv tidligere udtalt, at der efter disse skridt, ikke er en plan for, hvordan udviklingen kan tages videre for GPT-modellerne.

Det, jeg synes er mest interessant og tankevækkende, er, at jeg - som forsker og ekspert - der har tænkt over disse ting i årtier, ikke kan se, hvad loftet for o1 og dens efterfølgere kommer til at være.

Netop derfor bør vi i den kommende fremtid være ekstra opmærksomme på denne nye type model, og hvor langt vi kan nå med dens brug af chain-of-thought og Reinforcement Learning.

Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.

Har du en god historie, eller har du specialviden, som du synes trænger til at blive delt?

Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.

Læses lige nu

    Capgemini Danmark A/S

    Open Application (Denmark)

    Midtjylland

    Forsvarsministeriets Materiel- og Indkøbsstyrelse

    Senior projektkonsulent til program Digital og Operativ Transformation

    Københavnsområdet

    KMD A/S

    Product Owner

    Midtjylland

    Dansk Fundamental Metrologi A/S

    IT Specialist with Expertise in Microsoft Technologies and Programming

    Københavnsområdet

    Event: Platform X 2026: Forretning, teknologi og transformation

    It-løsninger | København V

    Mød verdens stærkeste og mest effektive platforme der driver den digitale transformation samlet i København - og dyk ned i den nyeste teknologi.

    27. maj 2026 | Gratis deltagelse

    Navnenyt fra it-Danmark

    Enterprise Rent-A-Car har pr. 1. september 2025 ansat Christian Kamper Garst som Senior Key Account Manager. Han skal især beskæftige sig med at vinde markedsandele i hele Norden som led i en storstilet turnaround-strategi. Han kommer fra en stilling som Salgsdirektør hos Brøchner Hotels. Nyt job

    Christian Kamper Garst

    Enterprise Rent-A-Car

    IT Confidence A/S har pr. 1. oktober 2025 ansat Johan Léfelius som it-konsulent. Han skal især beskæftige sig med med support, drift og vedligeholdelse af kunders it-miljøer samt udvikling af sikre og stabile løsninger. Han kommer fra en stilling som kundeservicemedarbejder hos Telia Company Danmark A/S. Han er uddannet (under uddannelse) som datatekniker med speciale i infrastruktur. Han har tidligere beskæftiget sig med kundeservice, salg og teknisk support. Nyt job

    Johan Léfelius

    IT Confidence A/S

    Tanja Schmidt Larsen, Director, Legal & Compliance hos Sentia A/S, er pr. 1. december 2025 forfremmet til Chief Operations Officer (COO). Hun skal fremover især beskæftige sig med synergi mellem kommercielle og tekniske processer samt sikre en sammenhængende kunderejse og fortsat driftsstabilitet. Forfremmelse