Sprogmodeller har ændret naturlig sprogbehandling

Klumme: Naturlig sprogteknologi har gjort store fremskridt de seneste år ved hjælp af det, som vi kalder pre-træning. Det har været den afgørende faktor til at få bedre kvalitet af søgeresultater med en mindre investering.

Artikel top billede

(Foto: Dan Jensen)

Denne klumme er et debatindlæg og er alene udtryk for forfatterens synspunkter.

Vi har alle oplevet, at det er nemt at finde information på internettet, men svært at finde det, som vi leder efter, når vi bruger søgeværktøjer sat op til at finde intern virksomhedsinformation eller indhold på hjemmesider.

Med natural language processing eller NLP-baseret maskinlæring er det dog muligt for brugeren at søge med naturlig tekst på samme måde, som vi ville stille et spørgsmål til mennesker.

Maskinlæring har brug for træningsdata for at virke og jo mere jo bedre.

At lave træningsdata, for eksempel ved at angive det korrekte svar til indsamlet søgehistorik, er tidskrævende. Det vil forlænge og fordyre udviklingstiden, før man er nået til en AI løsning, der virker godt nok.

Naturlig tekstsøgning lyder for dyrt for virksomheder, som ikke har ressourcer til at lave en masse træningsdata, men sådan er det faktisk ikke længere.

Pre-træning kommer til undsætning

Naturlig sprogteknologi har gjort store fremskridt de seneste år ved hjælp af det, vi kalder pre-træning.

Det har været den afgørende faktor til at få bedre kvalitet af søgeresultater med en mindre investering.

Som en sidebemærkning gennemgår biologien nøjagtig samme udvikling lige nu: Modellen er den samme, men tekst er udskiftet med proteinsekvenser.

For at forklare pre-træning er det nødvendigt at være specifik omkring, hvad vi mener med træningsdata for tekst:

Data uden svar (engelsk unlabeled data)

Det kan være tekstdata, som er samlet fra internettet eller intern tekstdata fra virksomheden.

Denne type data har vi i praksis uendelig meget af, men vi skal være varsomme med, hvilke data vi bruger, for vores model vil lære ting fra det[/url].

Data med svar (engelsk labeled data).

Det er det dyre data. Hos raffle.ai er dette spørgsmål-svar par.

Vi har brug for et antal spørgsmål for hvert svar. Spørgsmålene kan vi få fra historiske søgninger, samlet over tid og givet svar af interne eksperter i eller konstrueret af AI-trænere.

AI-trænere giver sikkerhed for, at modellen fungerer godt nok fra dag et.‍

Sådan træner du din sprogmodel

Lidt længere nede vil det blive forklaret præcis, hvad en sprogmodel er.

For nu er det nok at vide, at efter den er trænet “forstår” sprogmodellen betydningen af sætninger. Eller sagt mere præcist, hvis vi tager to forskellige sætninger, der betyder det samme, vil den måde, sprogmodellen repræsenterer dem på være tæt på den samme.

Det er et meget fint fundament, når vi vil bygge sprogteknologi applikationer såsom spørgsmål-svar systemer, fordi det giver os en måde at repræsentere vores spørgsmål som robust i forhold til, hvordan vi præcist stiller spørgsmålet.

Så opskriften for en naturlig sprogteknologi applikation ala 2021 lyder:

  1. Pre-træn en sprogmodel med store mængder data uden svar — eller endnu bedre — få nogle andre til at stille en til rådighed
  2. Finpuds på et lille datasæt med svar.‍
Men hvordan kan vi bruge store mængder data uden svar til at uddrage repræsentationer, som lærer betydningen af sætninger?

Nøglen til svaret er kontekst: Et enkelt ord i en sætning får en del af sin betydning fra den omstående tekst.

Så hvis vi træner en model til at forudsige et ord givet teksten før: “Josef går tur med sin ” eller teksten omkring: “katten musen” så vil modellen være tvunget til at lære repræsentationer, som anvender konteksten.

Konteksten bestemmer ikke entydigt det manglende ord, så de modeller, vi anvender , forudsiger sandsynligheder over mulige ord.

‍BERT og venner

Der er mange sprogmodeller på markedet.

En tidlig berømthed er word2vec.

Som navnet antyder, er det en model, der går fra ord til repræsentationer, som er høj-dimensionelle vektorer af reelle tal.

En fascinerede opdagelse ved word2vecs repræsentationer er, at man kan lægge til og trække fra på en semantisk meningsfuld måde: vec(konge) - vec(mand) + vec(kvinde) vec(dronning) eller vec(Stockholm) - vec(Sverige) + vec(Danmark) vec(København).

Spoler man hurtigt frem til i dag, så er den mest populære sprogmodel BERT, som er akronym for Bidirectional Encoder Representations from Transformers.

BERT er en såkaldt maskeret sprogmodel, der er trænet til at forudsige et eller flere ord, som er blevet fjernet fra inputtet som vist i øverste linie i eksemplet nedenfor.

Som det ofte er tilfældet i dyb læring, hjælper mere data og større modeller på at løse opgaven bedre.

Den standard pre-trænede BERT model er en 300 million parameter transformer model trænet på hele Wikipedia og mange andre kilder.

Den pre-trænede BERT.model findes på mange sprog og der findes også udgaver trænet samtidigt på over 100 sprog.

Så i princippet kan vi lave applikationer, der virker på næsten ethvert sprog.

Disse modeller lyder gigantiske.

Det er de faktisk også og det kræver tera-flop (1012 floating point operationer) per input sætning, men det er faktisk muligt at sætte dem i produktion, uden at brugerne oplever ventetid på svar. Google bruger BERT til internetsøgning og raffle.ai til vores AI løsninger.

I næste klumme vil vi se nærmere på træning af spørgsmål-svar systemer og se på, hvordan dyb læring fundamentalt er ved at ændre søgeteknologi.

lummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.

Har du en god historie, eller har du specialviden, som du synes trænger til at blive delt?

Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.

Læses lige nu

    Annonceindlæg fra Kommando

    Identity: Kortere levetid på certifikater øger risikoen for nedbrud

    Digitale certifikater er fundamentet for tillid. Nu ændres vilkårene, og der stilles helt nye krav til, hvordan I arbejder med overblik og styring.

    Navnenyt fra it-Danmark

    Alexander Hoffmann, SVP, Technology & IT hos GlobalConnect, er pr. 1. maj 2026 forfremmet til EVP, Tech, IT & Security. Han skal fremover især beskæftige sig med at lede den fortsatte udvikling af en mere integreret og software-drevet infrastrukturplatform. Forfremmelse

    Alexander Hoffmann

    GlobalConnect

    Renewtech ApS har pr. 1. marts 2026 ansat Emil Holme Fisker som Customer Service Specialist. Han skal især beskæftige sig med at levere høj kvalitets kundeservice og hjælpe Renewtechs kunder med at få de rette løsninger til deres behov. Han kommer fra en stilling som Key Account Manager hos Camro A/S. Han er uddannet som salgselev hos Camro A/S. Han har tidligere beskæftiget sig med at udvikle gode kunderelationer, opsøgende salg og udvikling af salgsaktiviteter. Nyt job

    Emil Holme Fisker

    Renewtech ApS

    SAP SuccessFactors Partner Pentos har pr. 1. marts 2026 ansat Plamena Cherneva som Seniorkonsulent indenfor SuccessFactors HCM. Hun skal især beskæftige sig med konfiguration og opsætning af SuccessFactors suiten, samt udvikle smarte løsninger til mellemstore danske virksomheder. Hun kommer fra en stilling som løsningsarkitekt indenfor HR IT hos LEO Pharma. Hun har tidligere beskæftiget sig med HR procesdesign, stamdata og onboarding. Nyt job

    Plamena Cherneva

    SAP SuccessFactors Partner Pentos

    Sharp Consumer Electronics har pr. 1. april 2026 ansat Daniel Eriksson som salgsdirektør for de nordiske lande. Han skal især beskæftige sig med at accelerere virksomhedens vækst i Norden. Han kommer fra en stilling som nordisk salgsdirektør hos Hisense. Han har tidligere beskæftiget sig med detailhandel, kommerciel strategi og markedsudvidelser med bemærkelsesværdige resultater til følge. Nyt job

    Daniel Eriksson

    Sharp Consumer Electronics