Digitale lagre af gamle bøger

På Det Kongelige Bibliotek har de været i gang i lang tid med at digitalisere de mange gamle bøger i samlingen. ComON tog en tur ind i Den Sorte Diamant for at se på, hvordan de gør.

»Kvalitetsmæssigt er vi nogle af de førende. Kvantitativt er vi ikke,«fortæller it-konsulent Hamid Mehrabi.

Sektionsleder Britta Lorckmann supplerer:
»Vi har det problem, at dansk er et lille sprogområde. Så modsat engelsk, er efterspørgslen på verdensplan af danske materialer mindre.«

Det betyder at der er færre om at betale, og for Afdelingen for Digital Produktion og Udvikling er det i sidste ende et spørgsmål om økonomi, hvor meget der kan blive skannet.

24 kilometer hylder

Det Kongelige Bibliotek har omkring 24 kilometer hylder af danske samlinger, med stort set alt, hvad der er skrevet og trykt i Danmark siden 1700-tallet.

»Vi ville gerne starte fra A til Z, men det har vi ikke midlerne til,« fortæller Britta Lorckmann.

Derfor er det de forskellige afdelinger på biblioteket, der afgør hvad de vil have scannet først. Og så står Afdelingen for Digital Produktion og Udvikling for at scanne materialerne i samarbejdet med afdelingerne.

Men det er ikke altid materialernes beskaffenhed, der afgør hvor i køen de kommer til. Et legat kan gøre, at et nyt projekt bliver startet, selv om materialerne måske ikke er i den store fare for forvanskelse. Det handler jo om økonomi.

En stor skrivebordsscanner

Selve scanningen af materialerne foregår kun på biblioteket. Materialerne må ikke forlade biblioteket, så at have en tredje part til at udføre det manuelle arbejde er udelukket.

Maskinen ligner en større udgave af en skrivebordsscanner. Men der stopper sammenligningerne også. Det Kongelige Biblioteks scanner er en dyr sag, som kan give den høje opløsning, som langtidsbevaringen kræver.

Bøgerne bliver scannet til højopløsnings tiff-filer, og derefter udsat for OCR, Optical Character Recognition. Det er et system, der kan genkende bogstaver og omskrive indscanningerne til et tekst-dokument. Derved bliver det muligt at søge i teksterne.

Som eksempel fremhæver Britta Lorckmann Arkiv for Dansk Litteratur. Her er den danske litteratur, der er fri for copyright, såkaldt "public domain," lagt ud og gjort tilgængelig online.

Man kan søge i de OCR-genererede tekster, men endnu vigtigere, er det muligt at se scannet af den originale bog. På den måde kan brugerne sende en fejlmeddelelse.

Alle skal kunne læse med

Tilgængelighed for offentligheden er et af de største kriterier for arbejdet i Digital Udvikling og Produktion. Tidligere var der et modsætningsforhold i arbejdet i afdelingen.

Før bredbåndsforbindelser og hurtige computere var man nødt til at afveje forholdet mellem de store filer, der skal bruges til langstidsbevaring, samtidig med at lave billeder, der kunne fremvises over nettet.

Men udviklingen har heldigvis indhentet det, og i dag er det intet problem at lagre store filer, og samtidig have dem tilgængelige for offentligheden.

Hurtigere og billigere

»Alt er blevet hurtigere og billigere, og det har udryddet det modsætningsforhold,« forklarer Hamid Mehrabi.
I dag er deres scanner så effektiv, at kapaciteten er oppe på 40,000 sider om dagen, i forhold til de 400 billeder, de kunne scannne for ti år siden. Og så er opløsningen endda dobbelt så høj.

Tekstgenkendelse er ikke perfekt

Hver gang Digital Udvikling og Produktion starter et nyt projekt, bliver der oprettet en ordbog. Det fungerer sådan, at OCR-programmet så kan checke de ord, den har læst, op mod ordbogen.

»Et af problemerne med OCR er, at i gamle dage havde man ikke retstavning. Så man kan ikke bare matche ordene op med en ordbog. Så ville det gå helt galt,« forklarer Britta Lorckmann.

Men at lave en begrænset ordbog for enkelte tekster kan hjælpe OCR-programmet med at lave mere korrekte tekster. I afdelingen sigter de efter at have korrekthed på 99,8 procent.

»Hvis du skal have 100 procent korrekthed, bliver du nødt til at læse manuel korrektur på det hele. Og det er der ikke økonomi til. « fortæller Britta Lorckmann videre.

I stedet foretager afdelingen stikprøver. Hvis der er for mange fejl, bliver OCR-teksten brugt til at lave en PDF-fil. I denne fil bliver teksten lagt ind med scannet ovenpå. På den måde er teksten stadig søgbar, men brugeren ser kun scannet af de originale sider, ikke at OCR-processen har læst nogle bogstaver forkert. Sammen med brugerrettelserne er det så muligt at få korrektur på de tekster hen ad vejen.

»Vi går efter at få automatiserede processer med høj kvalitet, for manuelt arbejde er det dyre arbejde,« afslutter Britta Lorckmann.

Læses lige nu

    Politiets Efterretningstjeneste

    IT-frontdesk medarbejder til PET's IT Servicedesk

    Københavnsområdet

    AL Sydbank A/S (tidligere Arbejdernes Landsbank)

    Teamleder til AL Sydbanks GDPR & Tech Regulation i Aabenraa

    Sydjylland

    Netcompany A/S

    Network Engineer

    Nordjylland

    AL Sydbank A/S (tidligere Arbejdernes Landsbank)

    Tech Lead til Datacenter Operations

    Sydjylland

    Computerworld Events

    Vi samler hvert år mere end 6.000 deltagere på mere end 70 events for it-professionelle.

    Ekspertindsigt – Lyt til førende specialister og virksomheder, der deler viden om den nyeste teknologi og de bedste løsninger.
    Netværk – Mød beslutningstagere, kolleger og samarbejdspartnere på tværs af brancher.
    Praktisk viden – Få konkrete cases, værktøjer og inspiration, som du kan tage direkte med hjem i organisationen.
    Aktuelle tendenser – Bliv opdateret på de vigtigste dagsordener inden for cloud, sikkerhed, data, AI og digital forretning.

    It-løsninger | København V

    Platform X 2026: Forretning, teknologi og transformation

    Mød verdens stærkeste og mest effektive platforme der driver den digitale transformation samlet i København - og dyk ned i den nyeste teknologi.

    Andre events | Kongens Lyngby

    Årets CIO 2026

    Vi samler Danmarks stærkeste digitale ledere til en dag med viden og visioner. Årets CIO 2026 fejrer 21 års jubilæum, og NEXT CIO sætter spotlight på næste generation. Deltag og bliv inspireret til at forme fremtidens strategi og eksekvering.

    Digital transformation | Hellerup

    Roundtable: Stærkere data og skarpere beslutninger i en AI-æra

    AI kræver data, ledelsen kan stole på. Computerworld samler digitale ledere til en fortrolig rundbordssamtale om datagrundlag, beslutninger og skalering af AI i organisationen. Få konkrete erfaringer og nye perspektiver. Ansøg om en plads.

    Se alle vores events inden for it

    Navnenyt fra it-Danmark

    IFS Danmark A/S har pr. 2. marts 2026 ansat Marlene Gudman som HR Business Partner. Hun skal især beskæftige sig med HR i Danmark og Norden og lede udvalgte internationale HR-projekter. Hun kommer fra en stilling som Nordic Lead HR Business Partner hos Salesforce. Hun har tidligere beskæftiget sig med international HR med fokus på udvikling af og udfordringer i HR ud fra et forretningsperspektiv. Nyt job

    Marlene Gudman

    IFS Danmark A/S

    Trafikstyrelsen har pr. 1. maj 2026 ansat Nihad Hodzic som IT og Digitaliseringschef. Han skal især beskæftige sig med med IT-projekter og digital transformation, herunder især det strategiske løft af Trafikstyrelsens digitale niveau. Han kommer fra en stilling som Kontorchef hos Udviklings og Forenklingsstyrelsen. Han er uddannet i statskundskab og har en lederuddannelse fra MIT Sloan, samt en igangværende Master i IT-Ledelse. Han har tidligere beskæftiget sig med IT-udvikling og større projekter på momsområdet, hvor han har ledet et projekt- og udviklingskontor. Nyt job

    Nihad Hodzic

    Trafikstyrelsen

    Renewtech ApS har pr. 15. marts 2026 ansat Per Forberg som Account Manager for Sustainable Relations. Han skal især beskæftige sig med etablere nye partnerskaber med henblik på ITAD og sourcing kontrakter med hostingvirksomheder og strategiske slutbrugere. Han kommer fra en stilling som Nordic Key Account Manager hos Tesa. Han er uddannet hos Lund University og har en MBA i Management. Han har tidligere beskæftiget sig med at styrke salgsaktiviteter og partnerskaber på tværs af nordiske markeder. Nyt job

    Per Forberg

    Renewtech ApS

    Mohamed El Haddaoui, er pr. 7. april 2026 ansat hos Dafolo A/S som IT-systemudvikler. Han skal især beskæftige sig med udviklingsopgaver relateret til Brugerklubben SBSYS. Han er nyuddannet datamatiker og har erfaring med udvikling af REST API'er og integreret databaser. Nyt job

    Mohamed El Haddaoui

    Dafolo A/S