Linux-baseret sprogteknologi jagter nye danske ord

Linux-maskineri kodet hos Dansk Sprognævn tygger hver måned 20 millioner ord igennem på jagt efter friske danske ord.

Artikel top billede

Grafik: Dansk Sprognævn

20 millioner ord om måneden.

Så mange slipper Dansk Sprognævn hver måned sinLinux-baserede crawler løs på i jagten efter friske og nye danske ord.

Dermed er der ikke meget støv og fjerpen over arbejdet med ordene hos vogterne af det danske sprog, som netop har offentliggjort de nye fund i danskernes brug af sproget det seneste år.

I stedet bruger Dansk Sprognævn Linux-baserede servere med perl- og java-programmerede applikationer som institutionens egne kodekarle har tunet til automatisk at surfe nettet tyndt efter nye danske ord.

"Vi koder vores ord direkte i xml, og vi genererer automatisk vores ordbøger ud fra vores xml-filer."

Det fortæller Sabine Kirchmeier-Andersen, direktør hos Dansk Sprognævn.

"Vi bruger typisk dagbladene og fagbladene. Vi får nogle ting elektronisk, som vi gerne må bruge. Og dem sender vi så vores ordtrawler ind på," siger hun.

Men hvordan bærer Dansk Sprognævn sig ad med at lede efter ord, som endnu ikke findes?

"Det er en sprogteknologisk udfordring, som vi har arbejdet meget med," forklarer hun til Computerworld.

Sorterer ordene

"Vi sorterer alle ordene. Vi får cirka 20 millioner ord om måneden. Og dem kører vi op mod de databaser, vi har i forvejen," siger direktøren.

Hun forklarer, at de 20 millioner ord består af alt muligt indhold og typisk stammer fra aviser. Men indholdet kan også stamme fra blogs.

"Vi prøver hele tiden at udvide området. Vi trækker ordene ud af al den tekst, vi kan få fat i lovligt," siger hun.

De 20 millioner bruttoord indeholder ifølge Sabine Kirchmeier-Andersen "en masse junk" i form af ad hoc-nye forkortelser, stavefejl og navne.

Når sprognævnets computere har filtreret alt junk fra, ender sprogforskerne med omkring 30.000 bogstavkombinationer, som ikke tidligere er set.

"Det er simpelthen ukendte ordstrenge, som ikke matcher noget, vi har i forvejen. Og computeren kan ikke se, om disse strenge betyder noget," siger Sabine Kirchmeier-Andersen.

Derfor skal der yderligere filtrering til for at sortere i de mange bogstavstrenge.

Et af midlerne er maskinel sortering hvor man ser bort fra endelser og bøjningsformer, fortæller hun.

Desuden handler det om at lede efter specifikke tekstmønstre, som signalerer, at her er der formentlig tale om et nyt ord. Det kan eksempelvis være ordet 'såkaldte', som ofte efterfølges af et nyt ord, forklarer sprogdirektøren.

Bedømmer sandsynligheden

Hun forklarer, at nævnet også benytter statistisk processering til at bedømme, hvad sandsynligheden er for, at et ord er nyt.

"Når vi er færdige med alle de her filtre, så er der måske et par tusind ord tilbage om måneden, som vi kigger på manuelt," siger Sabine Kirchmeier-Andersen.

Den manuelle gennemgang af ordene ender typisk med omkring 200 nye, rigtige ord om måneden som Dansk Sprognævn stopper i deres database.

Nogle af dem finder med tiden vej til ordbogen Nye Ord i Dansk, der er offentligt tilgængelig på nævnets hjemmeside.

Læses lige nu

    Annonceindlæg fra Barco

    Sådan er teknologi og design med til at skabe vellykkede hybridmøder

    Måden vi mødes på har ændret sig. Så hvorfor ser vores mødelokaler stadig ens ud?

    Navnenyt fra it-Danmark

    Den danske eID-virksomhed Idura har pr. 1. april 2026 ansat Kari Lehtimäki som Country Manager. Han skal især beskæftige sig med at styrke kendskabet til Iduras løsninger i Finland samt fremme samarbejdet med økosystemet omkring det finske Trust Network. Han kommer fra en stilling som Salgschef hos Telia Finland. Han er uddannet uddannet civilingeniør (M.Sc. Tech.) og medbringer ledelse, markedsindsigt og praktisk erfaring. Han har tidligere beskæftiget sig med salg og forretningsudvikling inden for Telias trust services-forretning. Nyt job

    Kari Lehtimäki

    Den danske eID-virksomhed Idura

    Renewtech ApS har pr. 1. marts 2026 ansat Emil Holme Fisker som Customer Service Specialist. Han skal især beskæftige sig med at levere høj kvalitets kundeservice og hjælpe Renewtechs kunder med at få de rette løsninger til deres behov. Han kommer fra en stilling som Key Account Manager hos Camro A/S. Han er uddannet som salgselev hos Camro A/S. Han har tidligere beskæftiget sig med at udvikle gode kunderelationer, opsøgende salg og udvikling af salgsaktiviteter. Nyt job

    Emil Holme Fisker

    Renewtech ApS

    Netip A/S har pr. 1. marts 2026 ansat Ajanta Holland Christensen som Sales Manager ved netIP's kontor i Aarhus. Han kommer fra en stilling som Account Manager hos Orange Cyberdefense. Nyt job
    55,7° North (a Beautiful Things company) har pr. 2. februar 2026 ansat Philip Jacobi Zahle, 53 år,  som Partner & CSMO. Han skal især beskæftige sig med Ansvar for Salg, Marketing og Brandudvikling i Norden, som han tidligere har gjort med GoPro, Skullcandy og Insta360 m.fl. Han kommer fra en stilling som Marketing & Branding Manager hos Boston Group A/S. Han har tidligere beskæftiget sig med distribution og brand building gennem 26 år og er kendt fra mærker som GoPro, Skullcandy og Insta360. Nyt job

    Philip Jacobi Zahle

    55,7° North (a Beautiful Things company)