Linux-baseret sprogteknologi jagter nye danske ord

Linux-maskineri kodet hos Dansk Sprognævn tygger hver måned 20 millioner ord igennem på jagt efter friske danske ord.

Artikel top billede

Grafik: Dansk Sprognævn

20 millioner ord om måneden.

Så mange slipper Dansk Sprognævn hver måned sinLinux-baserede crawler løs på i jagten efter friske og nye danske ord.

Dermed er der ikke meget støv og fjerpen over arbejdet med ordene hos vogterne af det danske sprog, som netop har offentliggjort de nye fund i danskernes brug af sproget det seneste år.

I stedet bruger Dansk Sprognævn Linux-baserede servere med perl- og java-programmerede applikationer som institutionens egne kodekarle har tunet til automatisk at surfe nettet tyndt efter nye danske ord.

"Vi koder vores ord direkte i xml, og vi genererer automatisk vores ordbøger ud fra vores xml-filer."

Det fortæller Sabine Kirchmeier-Andersen, direktør hos Dansk Sprognævn.

"Vi bruger typisk dagbladene og fagbladene. Vi får nogle ting elektronisk, som vi gerne må bruge. Og dem sender vi så vores ordtrawler ind på," siger hun.

Men hvordan bærer Dansk Sprognævn sig ad med at lede efter ord, som endnu ikke findes?

"Det er en sprogteknologisk udfordring, som vi har arbejdet meget med," forklarer hun til Computerworld.

Sorterer ordene

"Vi sorterer alle ordene. Vi får cirka 20 millioner ord om måneden. Og dem kører vi op mod de databaser, vi har i forvejen," siger direktøren.

Hun forklarer, at de 20 millioner ord består af alt muligt indhold og typisk stammer fra aviser. Men indholdet kan også stamme fra blogs.

"Vi prøver hele tiden at udvide området. Vi trækker ordene ud af al den tekst, vi kan få fat i lovligt," siger hun.

De 20 millioner bruttoord indeholder ifølge Sabine Kirchmeier-Andersen "en masse junk" i form af ad hoc-nye forkortelser, stavefejl og navne.

Når sprognævnets computere har filtreret alt junk fra, ender sprogforskerne med omkring 30.000 bogstavkombinationer, som ikke tidligere er set.

"Det er simpelthen ukendte ordstrenge, som ikke matcher noget, vi har i forvejen. Og computeren kan ikke se, om disse strenge betyder noget," siger Sabine Kirchmeier-Andersen.

Derfor skal der yderligere filtrering til for at sortere i de mange bogstavstrenge.

Et af midlerne er maskinel sortering hvor man ser bort fra endelser og bøjningsformer, fortæller hun.

Desuden handler det om at lede efter specifikke tekstmønstre, som signalerer, at her er der formentlig tale om et nyt ord. Det kan eksempelvis være ordet 'såkaldte', som ofte efterfølges af et nyt ord, forklarer sprogdirektøren.

Bedømmer sandsynligheden

Hun forklarer, at nævnet også benytter statistisk processering til at bedømme, hvad sandsynligheden er for, at et ord er nyt.

"Når vi er færdige med alle de her filtre, så er der måske et par tusind ord tilbage om måneden, som vi kigger på manuelt," siger Sabine Kirchmeier-Andersen.

Den manuelle gennemgang af ordene ender typisk med omkring 200 nye, rigtige ord om måneden som Dansk Sprognævn stopper i deres database.

Nogle af dem finder med tiden vej til ordbogen Nye Ord i Dansk, der er offentligt tilgængelig på nævnets hjemmeside.

Computerworld Events

Vi samler hvert år mere end 6.000 deltagere på mere end 70 events for it-professionelle.

Ekspertindsigt – Lyt til førende specialister og virksomheder, der deler viden om den nyeste teknologi og de bedste løsninger.
Netværk – Mød beslutningstagere, kolleger og samarbejdspartnere på tværs af brancher.
Praktisk viden – Få konkrete cases, værktøjer og inspiration, som du kan tage direkte med hjem i organisationen.
Aktuelle tendenser – Bliv opdateret på de vigtigste dagsordener inden for cloud, sikkerhed, data, AI og digital forretning.

Digital transformation | Aarhus C

Derfor skal du videre fra Dynamics AX – og sådan gør du

Computerworld giver klar viden om vejen videre fra Dynamics AX. Du ser forskellen mellem AX og moderne cloud-ERP og får et konkret beslutningsgrundlag for næste skridt. Tilmeld dig og få styr på skiftet til Dynamics 365 FO eller BC.

Sikkerhed | Online

Cyber Briefing: Fra databeskyttelse til dataindsigt

Få kort og fokuseret overblik over, hvordan du optimerer resiliens og gendannelse af kritiske informationer samt sikrer forretningens funktion, når cyberangrebet rammer.

Digital transformation | Online

Copilot i praksis: Sådan får du mest ud af AI

Få inspiration til at implementere, anvende og udnytte Copilot optimalt og forsvarligt.

Se alle vores events inden for it

KMD A/S

Teknisk Projektleder

Midtjylland

KMD A/S

Domain and Sales Specialist

Københavnsområdet

Timengo DPG

Teknisk Support Lead

Københavnsområdet

Navnenyt fra it-Danmark

Circle Of Bytes ApS har pr. 1. maj 2025 ansat Jeanette Kristiansen som Account Manager. Hun skal især beskæftige sig med at opbygge og styrke relationer til kunder og samarbejdspartnere, samt sikre det rette match mellem kunder og konsulenter. Nyt job

Jeanette Kristiansen

Circle Of Bytes ApS

Simple Agency Group A/S har pr. 1. januar 2026 ansat Allan Bo Christiansen, 38 år,  som CCO. Han skal især beskæftige sig med kommercielle partnerskaber og digitalisering af koncernens aktiviteter. Han kommer fra en stilling som Director for eCommerce & Customer Platforms hos Atea A/S. Han er uddannet MSc in economics and business administration, Strategy, Organisation and Leadership. Han har tidligere beskæftiget sig med drift og udvikling af større eCommece teams med fokus på kundeoplevelsen. Nyt job

Allan Bo Christiansen

Simple Agency Group A/S

IT Confidence A/S har pr. 1. oktober 2025 ansat Johan Léfelius som it-konsulent. Han skal især beskæftige sig med med support, drift og vedligeholdelse af kunders it-miljøer samt udvikling af sikre og stabile løsninger. Han kommer fra en stilling som kundeservicemedarbejder hos Telia Company Danmark A/S. Han er uddannet (under uddannelse) som datatekniker med speciale i infrastruktur. Han har tidligere beskæftiget sig med kundeservice, salg og teknisk support. Nyt job

Johan Léfelius

IT Confidence A/S

Netip A/S har pr. 1. november 2025 ansat Laura Bøjer som Consultant, GRC & Cybersecurity på afd. Thisted. Hun kommer fra en stilling som Assistant Consultant hos PwC i Hellerup. Hun er uddannet med en kandidat i Business Administration & Information System på Copenhagen Business School. Nyt job

Laura Bøjer

Netip A/S