Netarkivet er Danmarks hukommelse

7. oktober 2005 kl. 00.00

Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den CTO d. 7. oktober 2005.

Det er en storage-opgave i terabyte-klassen fire gange om året at indsamle indsamle data fra alle danske domæner, og derefter arkivere dem på to forskellige systemer på Statsbiblioteket i Århus og på Det kongelige Bibliotek i København.

Statsbiblioteket i Århus går i daglig tale under navnet bogtårnet, men faktisk beskæftiger institutionen sig med langt mere end tryksager.
For eksempel finder man i bogtårnet en af landets større storage-faciliter for data-arkivering. Aktiviteterne omfatter Netarkivet, som blandt andet indsamler data fra alle danske websider fire gange om året. Det sker i et samarbejde mellem Statsbiblioteket og Det kongelige Bibliotek i København, men det er blot en mindre del af de storage-aktiviteter, der forgår i Statsbibliotekets regi.
- På Netarkivet opfatter vi os selv som et virtuelt center. Den storageplatform, vi står for, er blot en af statsbibliotekets mange platforme, siger driftsleder Bjarne Andersen fra Statsbiblioteket.
Blandt bibliotekets øvrige meget kapacitetskrævende opgaver er løbende digital arkivering af digitale radio- og tv-udsendelser.
I øjeblikket råder Netarkivet over en kapacitet på 10 terabyte til aktiviteterne i Århus, men i alt råder Statsbiblioteket over 200 terabyte. Den største del er netop de digitale radio- og tv-udsendelser, som ventes at komme til at bidrage med 80 terabyte om året. Til sammenligning beregner Netarkivet at skulle lagre 20 terabyte om året.

Historien bag Netarkivets indsamling af danske websider begyndte ved den forrige revision af den såkaldte pligtafleveringslov i 1997. Denne lov, der - i forskellige former - har eksisteret siden 1697, påbyder populært sagt, at alle, der offentliggør trykt materiale afleverer et eksemplar til Nationalbiblioteket for som det siges, at sikre kulturarven for eftertiden. De senere år er bestræbelserne blevet udvidet til også at omfatte andre medier.
Efter at forskellige indsamlingsformer var blevet testet, blev der i marts 2004 afleveret en rapport til Kulturministeriet om, hvordan indsamlingsopgaverne kunne løses. Forslaget indeholdt dels forskellige bud på, hvordan løsningen teknisk kan indrettes, og dels forslag til ændring af den eksisterende lovgivning. Disse var blandt andet nødvendige, fordi både pligtafleveringsloven og ophavsretsloven begrænsede mulighederne for indsamling af materiale. Lovændringen blev vedtaget, og indsamlingen begyndte 1. juni i år.
De tekniske overvejelser gik på, om man skulle anvende RAID-teknologien (Redundant Array of Inexpensive Disks), der giver større fejlsikkerhed, og om man skulle gøre det på begge lagringslokationer. Og om man skulle nøjes med et online-arkiv, og have kopien liggende på bånd.
Valget faldt på en løsning, der anvender RAID i Århus, men ikke i København. Til gengæld lagrer man online på diske begge steder. Her drog man fordel af, at diske falder i pris. I København benytter man computere baseret op Windows XP og "så mange diske som muligt". I Århus benyttes et Linux-baseret storage-system fra EMC. Begge steder har man i øjeblikket en kapacitet på 10 terabyte.
Der køres et rent Java-miljø på indsamlings- og lagringsplatformene, dog kører man IBM JVM i København og Sun JVM i Århus.
- Det er lidt mere krævende for udviklerne, fordi de skal sikre sig, at det, de laver, skal kunne køre på begge systemer, men der er valgt to forskellige versioner af Java og to forskellige platforme for at mindske sårbarheden over for både forældelse og fejl i den virtuelle maskine. Hensigten er, at det indsamlede materiale skal være tilgængeligt til forskning også om mange år, siger Bjarne Andersen.

Indsamlingerne af data fra internettet kaldes høstninger. I øjeblikket foretager man tre forskellige typer.
Såkaldte tværsnitshøstninger, hvor man fire gange om året indsamler fra alle danske domæner. Det giver 24 terabyte. Herefter sorterer man de sider fra, der ikke er ændret siden sidste indsamling, og så står man tilbage med 10-12 terabyte, der skal lagres.
Det, der bliver indsamlet, er alt, der er offentliggjort - det vil sige i princippet tilgængeligt for alle. Det betyder, at materiale, som hvem som helst kan få adgang til, hvis de tegner abonnement, bliver indsamlet. Netarkivet har ret til at rekvirere de fornødne passwords, men denne del af indsamlingsprocessen er endnu ikke startet. Derimod er for eksempel materiale, der ligger på et firmas intranet, og dermed udelukkende er tilgængeligt for en begrænset gruppe, ikke omfattet af loven og indsamles ikke.
Dernæst foretages såkaldt selektiv høstning fra udvalgte sider. Det kan for eksempel være nyhedssites, hvor man indsamler forsider og niveauet under helt ned til en gang i timen. Disse sider er endnu ikke valgt, men man forventer, der bliver omkring 80. En række organisationer har indstillet medlemmer til en redaktionsgruppe bestående af fem personer, som skal rådgive i udvælgelsen af disse sider.
Endelig foretages begivenhedshøstning ved begivenheder, der har - som det hedder - national karakter. Den næste begivenhed, der er udvalgt er det kommende kommunalvalg, men som en test samlede man også data ind, der havde relation til det kongelige bryllup.
Den tre-strengede indsamlingsstrategi er blevet udviklet af Netarkivet i samarbejde med Center for Internet-forskning, der hører under Aarhus Universitets institut for Informations- og medievidenskab.

Indsamlingen af data foregår ved hjælp af open source-programmet Heritrix, som er udviklet af Internet Archive. Dette amerikanske non profit-initiativ har siden 1996 indsamlet websider fra hele internettet, som de gør tilgængelige på www.archive.org.
Heritrix indsamler på grundlag af en opdateret liste over danske domæner fra DK-Hostmaster. Systemet sætter høstningsjobbene i en "kø" og arkivere herefter siderne på den første ledige maskine i enten København eller Århus. Alle arkivfiler tjekkes på begge lokationer for at sikre fuld konsistens. Kø-systemet er en del af det samlede distribuerede system, der benytter JMS-teknologien (Java Messaging Service) til kommunikationen mellem de tyve servere, der indgår i opsætningen.
- Når alle maskiner høster, er vores behov vel 6 Mbit/s. Driftfolkene, der står for netværket og storageaktiviteterne på Statsbiblioteket, siger, at trafikken ikke er vokset markant, efter at vi startede disse aktiviteter, siger han.
Man starter med en indsamling, der tager ti objekter, som kan være undersider eller filer - alt hvad der kan linkes til - som sitet omfatter.
- Denne første søgning får sorteret de tyve procent af de registrerede domæner, der ikke er taget i brug, fra. Desuden får vi her en stor del af sitene, idet 60 procent af de registrerede domæner rummer mindre end ti objekter, siger Bjarne Andersen.
Næste gang indsamler man op til 50 objekter pr. site. Halvdelen af de resterende ligger under denne grænse.
I øjeblikket er Netarkivet ved at afslutte en indsamling af op til 5.000 objekter fra de cirka 25.000 sites, der har flere end 500 objekter. Siden indhøstningen begyndte i juli i år er der indsamlet 80 millioner objekter svarende til cirka 3,5 terabyte. Materialet lagres i det såkaldte ARC-format, der ligeledes er udviklet af Internet Archive, og lagres i portioner på 100 megabyte - typisk omfattende 3.000-4.000 objekter.
I øjeblikket er Netarkivet ved at fastlægge filtyper for henholdsvis dokumenter, billeder, lyd, video med mere, som man kan flytte materialet til. Dette er strategien for at sikre langtidsopbevaringen af materialet.
- Vi støder på i omegnen af 2.000 filtyper på nettet, men tyve formater (20 forskellige mine-types) står for 96 procent af materialet, siger Bjarne Andersen.

Billedtekst:
datahøst - Netarkivet indsamler fire gange om året data fra alle danske domæner. Det giver 24 terabyte. Herefter sorterer vi de sider fra, der ikke er ændret siden sidste indsamling, og så står vi tilbage med 10-12 terabyte, der skal lagres, fortæller driftsleder Bjarne Andersen fra Statsbiblioteket. Foto: Torben Klint

Boks:
En sidste forsvarslinje
Når Netarkivet gemmer data fra alle danske websider, ligger det lige for, at her er et sted virksomheder kunne henvende sig, hvis de af en eller anden grund skulle have mistet de data, der ligger på deres websted, og Netarkivet har fået den første hypotetiske forespørgsel, hvor en virksomhed ønskede at vide, om de havde denne mulighed, hvis uheldet skulle være ude.
- I øjeblikket er svaret nej. Adgangen til materialet er begrænset til forskere, og andre former for anvendelse vil kræve en lovændring. Et af problemerne er, at der ligger personfølsomme data på nettet. Det burde der ikke, men vi ved, at der for eksempel ligger foreningers medlemslister med videre. Derfor er arkivet underlagt Datatilsynets regler, og der er ikke offentlig adgang, siger Bjarne Andersen.
Netarkivet er ved at undersøge, om det er muligt at finde en metode til at adskille de personfølsomme data fra de øvrige, så man kan etablere et arkiv, der er offentligt tilgængeligt - dog med de begrænsninger, der ligger i loven om ophavsret.
Men der vil også være praktiske problemer for virksomheder, der måtte søge tabte data. Det er objekterne fra websitet, der er arkiveret, og hvis virksomheden har mistet alt - herunder content management systemet, der holder rede på objekterne, kan materialet vise sig at være værdiløst for virksomheden.