Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den CTO d. 7. oktober 2005.

Det er en storage-opgave i terabyte-klassen fire gange om året at indsamle indsamle data fra alle danske domæner, og derefter arkivere dem på to forskellige systemer på Statsbiblioteket i Århus og på Det kongelige Bibliotek i København.

Statsbiblioteket i Århus går i daglig tale under navnet bogtårnet, men faktisk beskæftiger institutionen sig med langt mere end tryksager.
For eksempel finder man i bogtårnet en af landets større storage-faciliter for data-arkivering. Aktiviteterne omfatter Netarkivet, som blandt andet indsamler data fra alle danske websider fire gange om året. Det sker i et samarbejde mellem Statsbiblioteket og Det kongelige Bibliotek i København, men det er blot en mindre del af de storage-aktiviteter, der forgår i Statsbibliotekets regi.
- På Netarkivet opfatter vi os selv som et virtuelt center. Den storageplatform, vi står for, er blot en af statsbibliotekets mange platforme, siger driftsleder Bjarne Andersen fra Statsbiblioteket.
Blandt bibliotekets øvrige meget kapacitetskrævende opgaver er løbende digital arkivering af digitale radio- og tv-udsendelser.
I øjeblikket råder Netarkivet over en kapacitet på 10 terabyte til aktiviteterne i Århus, men i alt råder Statsbiblioteket over 200 terabyte. Den største del er netop de digitale radio- og tv-udsendelser, som ventes at komme til at bidrage med 80 terabyte om året. Til sammenligning beregner Netarkivet at skulle lagre 20 terabyte om året.

Historien bag Netarkivets indsamling af danske websider begyndte ved den forrige revision af den såkaldte pligtafleveringslov i 1997. Denne lov, der - i forskellige former - har eksisteret siden 1697, påbyder populært sagt, at alle, der offentliggør trykt materiale afleverer et eksemplar til Nationalbiblioteket for som det siges, at sikre kulturarven for eftertiden. De senere år er bestræbelserne blevet udvidet til også at omfatte andre medier.
Efter at forskellige indsamlingsformer var blevet testet, blev der i marts 2004 afleveret en rapport til Kulturministeriet om, hvordan indsamlingsopgaverne kunne løses. Forslaget indeholdt dels forskellige bud på, hvordan løsningen teknisk kan indrettes, og dels forslag til ændring af den eksisterende lovgivning. Disse var blandt andet nødvendige, fordi både pligtafleveringsloven og ophavsretsloven begrænsede mulighederne for indsamling af materiale. Lovændringen blev vedtaget, og indsamlingen begyndte 1. juni i år.
De tekniske overvejelser gik på, om man skulle anvende RAID-teknologien (Redundant Array of Inexpensive Disks), der giver større fejlsikkerhed, og om man skulle gøre det på begge lagringslokationer. Og om man skulle nøjes med et online-arkiv, og have kopien liggende på bånd.
Valget faldt på en løsning, der anvender RAID i Århus, men ikke i København. Til gengæld lagrer man online på diske begge steder. Her drog man fordel af, at diske falder i pris. I København benytter man computere baseret op Windows XP og "så mange diske som muligt". I Århus benyttes et Linux-baseret storage-system fra EMC. Begge steder har man i øjeblikket en kapacitet på 10 terabyte.
Der køres et rent Java-miljø på indsamlings- og lagringsplatformene, dog kører man IBM JVM i København og Sun JVM i Århus.
- Det er lidt mere krævende for udviklerne, fordi de skal sikre sig, at det, de laver, skal kunne køre på begge systemer, men der er valgt to forskellige versioner af Java og to forskellige platforme for at mindske sårbarheden over for både forældelse og fejl i den virtuelle maskine. Hensigten er, at det indsamlede materiale skal være tilgængeligt til forskning også om mange år, siger Bjarne Andersen.

Indsamlingerne af data fra internettet kaldes høstninger. I øjeblikket foretager man tre forskellige typer.
Såkaldte tværsnitshøstninger, hvor man fire gange om året indsamler fra alle danske domæner. Det giver 24 terabyte. Herefter sorterer man de sider fra, der ikke er ændret siden sidste indsamling, og så står man tilbage med 10-12 terabyte, der skal lagres.
Det, der bliver indsamlet, er alt, der er offentliggjort - det vil sige i princippet tilgængeligt for alle. Det betyder, at materiale, som hvem som helst kan få adgang til, hvis de tegner abonnement, bliver indsamlet. Netarkivet har ret til at rekvirere de fornødne passwords, men denne del af indsamlingsprocessen er endnu ikke startet. Derimod er for eksempel materiale, der ligger på et firmas intranet, og dermed udelukkende er tilgængeligt for en begrænset gruppe, ikke omfattet af loven og indsamles ikke.
Dernæst foretages såkaldt selektiv høstning fra udvalgte sider. Det kan for eksempel være nyhedssites, hvor man indsamler forsider og niveauet under helt ned til en gang i timen. Disse sider er endnu ikke valgt, men man forventer, der bliver omkring 80. En række organisationer har indstillet medlemmer til en redaktionsgruppe bestående af fem personer, som skal rådgive i udvælgelsen af disse sider.
Endelig foretages begivenhedshøstning ved begivenheder, der har - som det hedder - national karakter. Den næste begivenhed, der er udvalgt er det kommende kommunalvalg, men som en test samlede man også data ind, der havde relation til det kongelige bryllup.
Den tre-strengede indsamlingsstrategi er blevet udviklet af Netarkivet i samarbejde med Center for Internet-forskning, der hører under Aarhus Universitets institut for Informations- og medievidenskab.

Indsamlingen af data foregår ved hjælp af open source-programmet Heritrix, som er udviklet af Internet Archive. Dette amerikanske non profit-initiativ har siden 1996 indsamlet websider fra hele internettet, som de gør tilgængelige på www.archive.org.
Heritrix indsamler på grundlag af en opdateret liste over danske domæner fra DK-Hostmaster. Systemet sætter høstningsjobbene i en "kø" og arkivere herefter siderne på den første ledige maskine i enten København eller Århus. Alle arkivfiler tjekkes på begge lokationer for at sikre fuld konsistens. Kø-systemet er en del af det samlede distribuerede system, der benytter JMS-teknologien (Java Messaging Service) til kommunikationen mellem de tyve servere, der indgår i opsætningen.
- Når alle maskiner høster, er vores behov vel 6 Mbit/s. Driftfolkene, der står for netværket og storageaktiviteterne på Statsbiblioteket, siger, at trafikken ikke er vokset markant, efter at vi startede disse aktiviteter, siger han.
Man starter med en indsamling, der tager ti objekter, som kan være undersider eller filer - alt hvad der kan linkes til - som sitet omfatter.
- Denne første søgning får sorteret de tyve procent af de registrerede domæner, der ikke er taget i brug, fra. Desuden får vi her en stor del af sitene, idet 60 procent af de registrerede domæner rummer mindre end ti objekter, siger Bjarne Andersen.
Næste gang indsamler man op til 50 objekter pr. site. Halvdelen af de resterende ligger under denne grænse.
I øjeblikket er Netarkivet ved at afslutte en indsamling af op til 5.000 objekter fra de cirka 25.000 sites, der har flere end 500 objekter. Siden indhøstningen begyndte i juli i år er der indsamlet 80 millioner objekter svarende til cirka 3,5 terabyte. Materialet lagres i det såkaldte ARC-format, der ligeledes er udviklet af Internet Archive, og lagres i portioner på 100 megabyte - typisk omfattende 3.000-4.000 objekter.
I øjeblikket er Netarkivet ved at fastlægge filtyper for henholdsvis dokumenter, billeder, lyd, video med mere, som man kan flytte materialet til. Dette er strategien for at sikre langtidsopbevaringen af materialet.
- Vi støder på i omegnen af 2.000 filtyper på nettet, men tyve formater (20 forskellige mine-types) står for 96 procent af materialet, siger Bjarne Andersen.

Billedtekst:
datahøst - Netarkivet indsamler fire gange om året data fra alle danske domæner. Det giver 24 terabyte. Herefter sorterer vi de sider fra, der ikke er ændret siden sidste indsamling, og så står vi tilbage med 10-12 terabyte, der skal lagres, fortæller driftsleder Bjarne Andersen fra Statsbiblioteket. Foto: Torben Klint

Boks:
En sidste forsvarslinje
Når Netarkivet gemmer data fra alle danske websider, ligger det lige for, at her er et sted virksomheder kunne henvende sig, hvis de af en eller anden grund skulle have mistet de data, der ligger på deres websted, og Netarkivet har fået den første hypotetiske forespørgsel, hvor en virksomhed ønskede at vide, om de havde denne mulighed, hvis uheldet skulle være ude.
- I øjeblikket er svaret nej. Adgangen til materialet er begrænset til forskere, og andre former for anvendelse vil kræve en lovændring. Et af problemerne er, at der ligger personfølsomme data på nettet. Det burde der ikke, men vi ved, at der for eksempel ligger foreningers medlemslister med videre. Derfor er arkivet underlagt Datatilsynets regler, og der er ikke offentlig adgang, siger Bjarne Andersen.
Netarkivet er ved at undersøge, om det er muligt at finde en metode til at adskille de personfølsomme data fra de øvrige, så man kan etablere et arkiv, der er offentligt tilgængeligt - dog med de begrænsninger, der ligger i loven om ophavsret.
Men der vil også være praktiske problemer for virksomheder, der måtte søge tabte data. Det er objekterne fra websitet, der er arkiveret, og hvis virksomheden har mistet alt - herunder content management systemet, der holder rede på objekterne, kan materialet vise sig at være værdiløst for virksomheden.





Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Ciklum ApS
Offshore software- og systemudvikling.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Digital HowTo: Sikkerhedstrusler

Under corona-krisen er antallet af cybertrusler steget med 33 procent. Det er særligt phishing-angreb, som oversvømmer mange virksomheder i de her dage. Corona-virussen har skabt en ny mulighed for at lokke uopmærksomme internetbrugere til at klikke på inficerede links. Nogle virksomheder oplever at op mod halvdelen e-mails, der sendes til dem, kommer fra it-kriminelle.

19. august 2020 | Læs mere


Digital HowTo: ERP – få optimal udnyttelse af dine store mængder af værdifulde data i den digitale transformation

Få indblik i, hvordan alle virksomheder kan optimere deres kritiske processer og hvordan du realiserer det uforløste potentiale gennem denne procesoptimering. Du får indsigt i forretnings-processer, digital værdiskabelse og teknologi, der har hjulpet mange virksomheder på vej med deres digitale transformation.

20. august 2020 | Læs mere


Digital HowTo: Fremtidens It service management - optimer dit setup med de nyeste teknologier

Det er vigtigere end nogensinde at have styr på kerneopgaverne i virksomhedens it-drift. Fra monitorering af systemerne til udrulning af applikationer, håndtering af service desken og alle udfordringerne med it-sikkerheden. Kom og bliv klogere på mulighederne for automatisering og optimering med ITSM og den nyeste robotteknologi.

21. august 2020 | Læs mere






Premium
Danmarks Statistik skifter fra Oracle og SAS Institute til open source-platforme for at spare på licensbetalinger: "Vi ser et teknologi-landskab, hvor nogle af de store spillere er ved at blive overhalet af nye letvægtsprodukter"
Interview: For at nedbringe udgifterne til de årlige licensbetalinger mindsker Danmarks Statistik forbruget af kerner hos Oracle og SAS Institute for i stedet at bruge open source-platforme. "Vi har haft sindssygt gode resultater med at introducere dem. På de åbne platforme kan vi bygge en del mere selv," siger CIO Annie Stahel. Se platformene her.
Computerworld
NemID ramt af nedbrud
Det er ikke muligt at logge på med NemID i øjeblikket. Nets bekræfter, at der er driftsproblemer. (Opdateret).
CIO
Torben Fabrin og Arla måtte på få dage omstille hele deres produktion da coronaen ramte
Da coronaen ramte verden måtte mejerigiganten Arla på få dage omstille sin produktion. Samtidig voksede salget massivt til supermarkeder mens institutioner og restauranter gik næsten i stå. Hør hvordan Arla kom gennem krisen ved blandt andet være klar med realtime analytics.
Job & Karriere
På jagt efter et it-job i Jylland? Her er 10 stillinger fra Aabenraa til Aalborg, der ledige netop nu
Vi har fundet en række spændende stillinger til dig, der jagter et it-job. Her kan du vælge og vrage mellem ledige stillinger lige fra Aabenraa til Aalborg.
White paper
Sådan får du et sikrere og mere effektivt netværk med SD-WAN
Kombinationen af cloud og mere effektive arbejdsformer - og hjemmearbejde – kan både netværk og sikkerhed nemt blive udfordret. Samtidig kan de traditionelle løsninger hurtigt blive dyre, især når sikkerheden skal følge med. I dette whitepaper kan du læse om udfordringerne med de traditionelle netværkskonfigurationer og hvilke fordele som et software defined netværk kan give, samt hvordan du tænker sikkerhed ind i løsningen fra starten.