Open source gør det nemmere at bruge dyb læring til naturlig sprogteknologi

Klumme: Der er ingen tvivl om, at open source accellererer udbredelsen af AI, og at big tech spiller en stor rolle ved at dele forskningsresultater og kode. Her er et bud på nogle af de pakker og modeller, der er tilgængelige for naturlig sprogteknologi, og hvordan de kan anvendes i it-løsninger.

Artikel top billede

Denne klumme er et debatindlæg og er alene udtryk for forfatterens synspunkter.

Dyb læring er den store motor bag de omfattende fremskridt, som kunstig intelligens har oplevet de seneste år, og deling af computerkode - open source - har gjort det muligt for alle at deltage.

De to primære værktøjer til dyb læring, PyTorch og TensorFlow, er begge open source. Her er det interessant, at Facebook er en af PyTorchs største sponsorer, og TensorFlow er et Google-projekt.

I stedet for at gå ind i en lang diskussion af big techs motiver for at støtte open source og tilgængelighed af forskningsresultater, vil jeg i denne klumme i stedet se på nogle af de pakker og modeller, der er tilgængelige for naturlig sprogteknologi (natural language processing eller bare NLP), og hvordan de kan bruges i it-løsninger.

Værktøjer

Et værktøj til maskinlæring er en samling biblioteker, som indeholder de nødvendige elementer til træning af modeller.

Det skal gøre det nemt at arbejde med data - at definere, træne, evaluere og sætte modeller i produktion.

Både i forskningsverdenen og i mange virksomheder er PyTorch det mest populære valg, fordi det er et “pythonisk” (=minder om Python) programmeringssprog.

TensorFlow har derimod nogle fordele, når det kommer til at sætte modeller i produktion. Hvis man vil gå videre end standardløsninger, kan man dog nogle gange blive tvunget til at arbejde med begge, og der kommer hele tiden nye lovende værktøjer.

Keras er et tredje bibliotek, som lægger sig oven på både Pytorch og TensorFlow, og som gør det nemmere at komme i gang med dyb læring, og der kommer hele tiden nye. Men pas på for det er vanskeligt at mestre dyb læring.

Open source for naturlig sprogteknologi

Når man laver naturlig sprogteknologi løsninger såsom spørgsmål-svar-systemer, har man brug for modeller, der forstår spørgsmål, som er formuleret på den måde, mennesker naturligt vil gøre det, og kan forbinde dem til en vidensbase, der indeholder svar.

For at kunne tale med disse systemer har vi brug for at kunne lave talegenkendelse og -syntese. Det vil sige tale-til-tekst og tekst-til-tale (engelsk speech2text og text2speech).

Ideelt skal vi også kunne mestre alle sprog. For at bygge disse systemer har vi brug for følgende komponenter:

  1. Som beskrevet i min forrige klumme, kan vi bruge sprogmodeller som BERT til bedre at “forstå” naturlig tekst. De tager tekst input og spytter (vektor) repræsentationer ud, som så bliver brugt som input i næste model. Hugging face er et firma, der har specialiseret sig i at stille kode og trænede naturlig sprogteknologi modeller til rådighed.

  2. Maskinoversættelse vil en dag i en ikke så fjern fremtid nedbryde sprogbarrierer. For nylig frigav Facebooks AI forskningsafdeling FAIR et maskinoversættelses-system, der kan oversætte mellem 100 sprog. Denne teknologi virker efterhånden rigtig godt. Der er dog plads til forbedringer for sprog med kun lidt data og for specialiserede emner såsom f.eks. medicin.

  3. Talegenkendelse og talesyntese er allerede standardfunktioner i enhver smartphone. Der er også open source udgaver tilgængelige, som man kan bruge, hvis man ikke vil bruge Big Techs løsninger.

Er Babelfisken nu en realitet?

Hvis man har maskinoversættelse som en del af AI sprogteknologien, så kan man også stille et spørgsmål i et andet sprog, end det som modellen er trænet på. Modellen vil så gå gennem følgende skridt:

  • Detektering af sprog. Denne funktionalitet er en del af maskinoversættelses-systemerne på markedet i dag.

  • Oversættelse.

  • Det oversatte spørgsmål gives som input til vores spørgsmål-svar system, der returnerer et svar.

  • Oversættelse af svaret tilbage til brugerens eget sprog.
Hvis vi ydermere bruger talegenkendelse og -syntese, så behøver brugeren hverken at skrive eller læse tekst. En vigtig begrænsende faktor, for at alle kan lave disse løsninger, er dog størrelsen af modellerne.

For eksempel har 100-til-100 sprog-oversættelsesmodellen 15 milliarder parametre.

Derfor er det kun muligt for firmaer (læs Big Tech) med den ypperste ekspertise i stor-skalaberegning at køre den slags modeller.

I praksis er det nok heller ikke den slags modeller, der kører, når Facebook oversætter 20 milliarder indlæg hver dag!

Takket være open source-bidrag ved vi, at der snart vil komme meget mindre modeller ud, som virker næsten lige så godt.

Så kan det være, at der kommer en dag i en ikke så fjern fremtid, hvor det viser sig, at Hitchhiker’s Guide to the Galaxy fik ret!

Bygger man maskinlæring til produktion, har man udover modeller også brug for en infrastruktur, der gør modellerne bedre over tid:

  1. A/B test - så man kan teste alternative modeller.

  2. Bayesiansk optimering - så man automatisk kan søge efter bedre modelarkitekturer.

  3. Automatisk gentræning - så man kontinuerligt kan forbedre modellerne, når der kommer ny træningsdata.

  4. Aktiv læring - til at udpege hvilken data, som der er mest brug for til at forbedre modellen. Det vil sige at udpege områder, hvor modellen lige nu har svært ved at svare rigtigt.

Open source demokratiserer AI

Der er ingen tvivl om, at open source accelerer udbredelsen af AI, og at Big Tech spiller en stor rolle ved at dele forskningsresultater og kode.

Den akademiske verden står for uddannelsen af de dygtige forskere, som industrien er afhængige af, og den kan stadigvæk matche big tech på ideer, selvom der er projekter, som vi universitetsforskere må overlade til andre, der har mere regnekraft.

Der er dog stadigvæk i høj grad brug for ideerne, og det stærke økosystem af unge virksomheder indenfor AI er, som eksemplet med Huggingface viser, utrolig vigtigt for, at flest muligt kan være med.

I min næste klumme ser jeg nærmere på, hvordan naturlig sprogteknologi vil udvikle sig i den nærmeste fremtid. Det er svært at spå om fremtiden, men det er helt sikkert, at den hastige udvikling vil fortsætte en rum tid endnu.

Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.

Har du en god historie, eller har du specialviden, som du synes trænger til at blive delt?

Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.

Computerworld Events

Vi samler hvert år mere end 6.000 deltagere på mere end 70 events for it-professionelle.

Ekspertindsigt – Lyt til førende specialister og virksomheder, der deler viden om den nyeste teknologi og de bedste løsninger.
Netværk – Mød beslutningstagere, kolleger og samarbejdspartnere på tværs af brancher.
Praktisk viden – Få konkrete cases, værktøjer og inspiration, som du kan tage direkte med hjem i organisationen.
Aktuelle tendenser – Bliv opdateret på de vigtigste dagsordener inden for cloud, sikkerhed, data, AI og digital forretning.

Sikkerhed | Online

Cyber Briefing: AI kan udnytte dine VPN‑svagheder og lække dine data på sekunder

AI-agenter arbejder konstant og i maskinhastighed. Klassiske VPN-modeller mister overblik, kontrol og sporbarhed. Hør hvordan adgang, handlinger og automatisering sikres i en AI-drevet virkelighed. Tilmeld dig nu

Digital transformation | København

Roundtable: Fra legacy til AI – de strategiske valg for digitale ledere

Legacy-systemer bremser mange AI-ambitioner. Digitale ledere skal vælge platform, tempo og arkitektur. Computerworld samler CIO’er og CTO’er til lukket roundtable om vejen fra legacy til AI-parat forretning. Få perspektiver fra COWI og del...

Digital transformation | København

Executive Conversations: Kina, Trump og AI-ledelse

Kina, USA og AI flytter magt og markeder. Geopolitik rammer leverandørkæder, chips, data og standarder. Lær at koble global risiko med konkret it-ledelse. Få styr på governance, sikkerhed og compliance i AI. Deltag og styrk din handlekraft.

Se alle vores events inden for it

Navnenyt fra it-Danmark

Renewtech ApS har pr. 15. marts 2026 ansat Jouni Salo som Account Manager for Sverige. Han skal især beskæftige sig med med at styrke Renewtechs nordiske tilstedeværelse med fokus primært på det svenske marked. Han kommer fra en stilling som Key Account Manager hos GoGift. Han har tidligere beskæftiget sig med udvikling af salgsaktiviter og kunderelationer på tværs af flere markeder. Nyt job

Jouni Salo

Renewtech ApS

Renewtech ApS har pr. 1. marts 2026 ansat Emil Holme Fisker som Customer Service Specialist. Han skal især beskæftige sig med at levere høj kvalitets kundeservice og hjælpe Renewtechs kunder med at få de rette løsninger til deres behov. Han kommer fra en stilling som Key Account Manager hos Camro A/S. Han er uddannet som salgselev hos Camro A/S. Han har tidligere beskæftiget sig med at udvikle gode kunderelationer, opsøgende salg og udvikling af salgsaktiviteter. Nyt job

Emil Holme Fisker

Renewtech ApS

Norriq Danmark A/S har pr. 1. januar 2026 ansat Morten Kronborg som Consultant ERP. Han skal især beskæftige sig med hjælp og rådgivning af kundernes handels-forretningsprocesser indenfor salg og indkøb. Han kommer fra en stilling som Digital Forretningskonsulent hos Gasa Nord Grønt. Han er uddannet speditør og har bevæget sig ind i handelsvirksomheder hvor han endte med ansvar for ERP-løsninger. Han har tidligere beskæftiget sig med at være ansvarlig for implementering og drift af IT-projekter. Nyt job

Morten Kronborg

Norriq Danmark A/S