Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den CTO d. 7. oktober 2005.

Det er en storage-opgave i terabyte-klassen fire gange om året at indsamle indsamle data fra alle danske domæner, og derefter arkivere dem på to forskellige systemer på Statsbiblioteket i Århus og på Det kongelige Bibliotek i København.

Statsbiblioteket i Århus går i daglig tale under navnet bogtårnet, men faktisk beskæftiger institutionen sig med langt mere end tryksager.
For eksempel finder man i bogtårnet en af landets større storage-faciliter for data-arkivering. Aktiviteterne omfatter Netarkivet, som blandt andet indsamler data fra alle danske websider fire gange om året. Det sker i et samarbejde mellem Statsbiblioteket og Det kongelige Bibliotek i København, men det er blot en mindre del af de storage-aktiviteter, der forgår i Statsbibliotekets regi.
- På Netarkivet opfatter vi os selv som et virtuelt center. Den storageplatform, vi står for, er blot en af statsbibliotekets mange platforme, siger driftsleder Bjarne Andersen fra Statsbiblioteket.
Blandt bibliotekets øvrige meget kapacitetskrævende opgaver er løbende digital arkivering af digitale radio- og tv-udsendelser.
I øjeblikket råder Netarkivet over en kapacitet på 10 terabyte til aktiviteterne i Århus, men i alt råder Statsbiblioteket over 200 terabyte. Den største del er netop de digitale radio- og tv-udsendelser, som ventes at komme til at bidrage med 80 terabyte om året. Til sammenligning beregner Netarkivet at skulle lagre 20 terabyte om året.

Historien bag Netarkivets indsamling af danske websider begyndte ved den forrige revision af den såkaldte pligtafleveringslov i 1997. Denne lov, der - i forskellige former - har eksisteret siden 1697, påbyder populært sagt, at alle, der offentliggør trykt materiale afleverer et eksemplar til Nationalbiblioteket for som det siges, at sikre kulturarven for eftertiden. De senere år er bestræbelserne blevet udvidet til også at omfatte andre medier.
Efter at forskellige indsamlingsformer var blevet testet, blev der i marts 2004 afleveret en rapport til Kulturministeriet om, hvordan indsamlingsopgaverne kunne løses. Forslaget indeholdt dels forskellige bud på, hvordan løsningen teknisk kan indrettes, og dels forslag til ændring af den eksisterende lovgivning. Disse var blandt andet nødvendige, fordi både pligtafleveringsloven og ophavsretsloven begrænsede mulighederne for indsamling af materiale. Lovændringen blev vedtaget, og indsamlingen begyndte 1. juni i år.
De tekniske overvejelser gik på, om man skulle anvende RAID-teknologien (Redundant Array of Inexpensive Disks), der giver større fejlsikkerhed, og om man skulle gøre det på begge lagringslokationer. Og om man skulle nøjes med et online-arkiv, og have kopien liggende på bånd.
Valget faldt på en løsning, der anvender RAID i Århus, men ikke i København. Til gengæld lagrer man online på diske begge steder. Her drog man fordel af, at diske falder i pris. I København benytter man computere baseret op Windows XP og "så mange diske som muligt". I Århus benyttes et Linux-baseret storage-system fra EMC. Begge steder har man i øjeblikket en kapacitet på 10 terabyte.
Der køres et rent Java-miljø på indsamlings- og lagringsplatformene, dog kører man IBM JVM i København og Sun JVM i Århus.
- Det er lidt mere krævende for udviklerne, fordi de skal sikre sig, at det, de laver, skal kunne køre på begge systemer, men der er valgt to forskellige versioner af Java og to forskellige platforme for at mindske sårbarheden over for både forældelse og fejl i den virtuelle maskine. Hensigten er, at det indsamlede materiale skal være tilgængeligt til forskning også om mange år, siger Bjarne Andersen.

Indsamlingerne af data fra internettet kaldes høstninger. I øjeblikket foretager man tre forskellige typer.
Såkaldte tværsnitshøstninger, hvor man fire gange om året indsamler fra alle danske domæner. Det giver 24 terabyte. Herefter sorterer man de sider fra, der ikke er ændret siden sidste indsamling, og så står man tilbage med 10-12 terabyte, der skal lagres.
Det, der bliver indsamlet, er alt, der er offentliggjort - det vil sige i princippet tilgængeligt for alle. Det betyder, at materiale, som hvem som helst kan få adgang til, hvis de tegner abonnement, bliver indsamlet. Netarkivet har ret til at rekvirere de fornødne passwords, men denne del af indsamlingsprocessen er endnu ikke startet. Derimod er for eksempel materiale, der ligger på et firmas intranet, og dermed udelukkende er tilgængeligt for en begrænset gruppe, ikke omfattet af loven og indsamles ikke.
Dernæst foretages såkaldt selektiv høstning fra udvalgte sider. Det kan for eksempel være nyhedssites, hvor man indsamler forsider og niveauet under helt ned til en gang i timen. Disse sider er endnu ikke valgt, men man forventer, der bliver omkring 80. En række organisationer har indstillet medlemmer til en redaktionsgruppe bestående af fem personer, som skal rådgive i udvælgelsen af disse sider.
Endelig foretages begivenhedshøstning ved begivenheder, der har - som det hedder - national karakter. Den næste begivenhed, der er udvalgt er det kommende kommunalvalg, men som en test samlede man også data ind, der havde relation til det kongelige bryllup.
Den tre-strengede indsamlingsstrategi er blevet udviklet af Netarkivet i samarbejde med Center for Internet-forskning, der hører under Aarhus Universitets institut for Informations- og medievidenskab.

Indsamlingen af data foregår ved hjælp af open source-programmet Heritrix, som er udviklet af Internet Archive. Dette amerikanske non profit-initiativ har siden 1996 indsamlet websider fra hele internettet, som de gør tilgængelige på www.archive.org.
Heritrix indsamler på grundlag af en opdateret liste over danske domæner fra DK-Hostmaster. Systemet sætter høstningsjobbene i en "kø" og arkivere herefter siderne på den første ledige maskine i enten København eller Århus. Alle arkivfiler tjekkes på begge lokationer for at sikre fuld konsistens. Kø-systemet er en del af det samlede distribuerede system, der benytter JMS-teknologien (Java Messaging Service) til kommunikationen mellem de tyve servere, der indgår i opsætningen.
- Når alle maskiner høster, er vores behov vel 6 Mbit/s. Driftfolkene, der står for netværket og storageaktiviteterne på Statsbiblioteket, siger, at trafikken ikke er vokset markant, efter at vi startede disse aktiviteter, siger han.
Man starter med en indsamling, der tager ti objekter, som kan være undersider eller filer - alt hvad der kan linkes til - som sitet omfatter.
- Denne første søgning får sorteret de tyve procent af de registrerede domæner, der ikke er taget i brug, fra. Desuden får vi her en stor del af sitene, idet 60 procent af de registrerede domæner rummer mindre end ti objekter, siger Bjarne Andersen.
Næste gang indsamler man op til 50 objekter pr. site. Halvdelen af de resterende ligger under denne grænse.
I øjeblikket er Netarkivet ved at afslutte en indsamling af op til 5.000 objekter fra de cirka 25.000 sites, der har flere end 500 objekter. Siden indhøstningen begyndte i juli i år er der indsamlet 80 millioner objekter svarende til cirka 3,5 terabyte. Materialet lagres i det såkaldte ARC-format, der ligeledes er udviklet af Internet Archive, og lagres i portioner på 100 megabyte - typisk omfattende 3.000-4.000 objekter.
I øjeblikket er Netarkivet ved at fastlægge filtyper for henholdsvis dokumenter, billeder, lyd, video med mere, som man kan flytte materialet til. Dette er strategien for at sikre langtidsopbevaringen af materialet.
- Vi støder på i omegnen af 2.000 filtyper på nettet, men tyve formater (20 forskellige mine-types) står for 96 procent af materialet, siger Bjarne Andersen.

Billedtekst:
datahøst - Netarkivet indsamler fire gange om året data fra alle danske domæner. Det giver 24 terabyte. Herefter sorterer vi de sider fra, der ikke er ændret siden sidste indsamling, og så står vi tilbage med 10-12 terabyte, der skal lagres, fortæller driftsleder Bjarne Andersen fra Statsbiblioteket. Foto: Torben Klint

Boks:
En sidste forsvarslinje
Når Netarkivet gemmer data fra alle danske websider, ligger det lige for, at her er et sted virksomheder kunne henvende sig, hvis de af en eller anden grund skulle have mistet de data, der ligger på deres websted, og Netarkivet har fået den første hypotetiske forespørgsel, hvor en virksomhed ønskede at vide, om de havde denne mulighed, hvis uheldet skulle være ude.
- I øjeblikket er svaret nej. Adgangen til materialet er begrænset til forskere, og andre former for anvendelse vil kræve en lovændring. Et af problemerne er, at der ligger personfølsomme data på nettet. Det burde der ikke, men vi ved, at der for eksempel ligger foreningers medlemslister med videre. Derfor er arkivet underlagt Datatilsynets regler, og der er ikke offentlig adgang, siger Bjarne Andersen.
Netarkivet er ved at undersøge, om det er muligt at finde en metode til at adskille de personfølsomme data fra de øvrige, så man kan etablere et arkiv, der er offentligt tilgængeligt - dog med de begrænsninger, der ligger i loven om ophavsret.
Men der vil også være praktiske problemer for virksomheder, der måtte søge tabte data. Det er objekterne fra websitet, der er arkiveret, og hvis virksomheden har mistet alt - herunder content management systemet, der holder rede på objekterne, kan materialet vise sig at være værdiløst for virksomheden.





Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Despec Denmark A/S
Distributør af forbrugsstoffer, printere, it-tilbehør, mobility-tilbehør, ergonomiske produkter, kontor-maskiner og -tilbehør.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Internet of Things er klar til næste fase: Forretning, teknologi og sikkerhed

Der er blevet talt og skrevet meget om Internet of Things i de senere år. Internet of Things bevæger sig nu ind i en ny fase, hvor løsningerne og anvendelsesmulighederne stiger hastigt i antal samtidig med, at det egentlige potentiale er klar til at blive indfriet. Vi sætter fokus på forretningsmulighederne og på hvordan I kan komme igang samt på udfordringer med sikkerhed, privacy og it-drift.

24. april 2018 | Læs mere


Basware Connect 2018

Kigger du efter nye måder at fremtidssikre og vækste din virksomhed på? Udnytter du den eksplosion af data, som digitaliseringen har ført med sig? Virksomheder der gør brug af data mining, kunstig intelligens og er drevet af data analyse kan bedre forstå deres kunder og deres produkter - og dermed øge deres konkurrencemæssige fordele. Allerede nu er der nemlig masser af muligheder for at automatisere sine indkøbs- og betalingsprocesser og få adgang til data, der bør danne grundlaget for strategien.

25. april 2018 | Læs mere


Digitaliseringskrav, ledelse og fremtidens kommunikationsudfordringer

Hør om håndteringen af digitaliseringskrav, ledelsesudfordringer og effektiv kommunikation og få en smagsprøve på IDG Kurser og Computerworlds nye lederuddannelse til dig som er CIO, IT-chef og/eller digital-leder: It Executive Masterclass.

25. april 2018 | Læs mere






Computerworld
Her er Danmarks fem bedste CIO'er lige nu: Disse fem it-chefer er nomineret til titlen som Årets CIO 2018
Årets CIO 2018: Den eftertragtede titel som Årets CIO i Danmark skal snart uddeles for 13. gang af Computerworld, IDC og Dansk IT. Her er de fem nominerede til Årets CIO 2018.
CIO
Allersidste opdatering på vej: Om en uge er det slut med stor-version af Windows 10 - skynd dig at opdatere
Om en uge er det slut for altid med den første store udgave af Windows 10, som Microsoft efter 29 måneder ikke længere vil supportere.
Job & Karriere
Klassiske brokere af it-konsulenter står over for kæmpe udfordring - forretningsmodellen er under pres
Klumme: Eksterne konsulenter er populære og en god løsning i en branche i vækst. Men selve forretningsmodellen bag it-konsulenterne er under alvorligt pres.
White paper
Sådan indfrier du virksomhedens digitale potentiale - og her giver det mest værdi at starte
Digitalisering er det altafgørende omdrejningspunkt for mange virksomheder. Men hvor tager man fat, så det giver mest værdi? EG har identificeret fem helt centrale områder, hvor der typisk er et perfekt match mellem virksomhedens behov og de teknologiske muligheder. Læs dette whitepaper og få indblik i, hvordan vidt forskellige virksomheder har grebet det an. 14 sider på dansk.