Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den CTO d. 7. oktober 2005.

Det er en storage-opgave i terabyte-klassen fire gange om året at indsamle indsamle data fra alle danske domæner, og derefter arkivere dem på to forskellige systemer på Statsbiblioteket i Århus og på Det kongelige Bibliotek i København.

Statsbiblioteket i Århus går i daglig tale under navnet bogtårnet, men faktisk beskæftiger institutionen sig med langt mere end tryksager.
For eksempel finder man i bogtårnet en af landets større storage-faciliter for data-arkivering. Aktiviteterne omfatter Netarkivet, som blandt andet indsamler data fra alle danske websider fire gange om året. Det sker i et samarbejde mellem Statsbiblioteket og Det kongelige Bibliotek i København, men det er blot en mindre del af de storage-aktiviteter, der forgår i Statsbibliotekets regi.
- På Netarkivet opfatter vi os selv som et virtuelt center. Den storageplatform, vi står for, er blot en af statsbibliotekets mange platforme, siger driftsleder Bjarne Andersen fra Statsbiblioteket.
Blandt bibliotekets øvrige meget kapacitetskrævende opgaver er løbende digital arkivering af digitale radio- og tv-udsendelser.
I øjeblikket råder Netarkivet over en kapacitet på 10 terabyte til aktiviteterne i Århus, men i alt råder Statsbiblioteket over 200 terabyte. Den største del er netop de digitale radio- og tv-udsendelser, som ventes at komme til at bidrage med 80 terabyte om året. Til sammenligning beregner Netarkivet at skulle lagre 20 terabyte om året.

Historien bag Netarkivets indsamling af danske websider begyndte ved den forrige revision af den såkaldte pligtafleveringslov i 1997. Denne lov, der - i forskellige former - har eksisteret siden 1697, påbyder populært sagt, at alle, der offentliggør trykt materiale afleverer et eksemplar til Nationalbiblioteket for som det siges, at sikre kulturarven for eftertiden. De senere år er bestræbelserne blevet udvidet til også at omfatte andre medier.
Efter at forskellige indsamlingsformer var blevet testet, blev der i marts 2004 afleveret en rapport til Kulturministeriet om, hvordan indsamlingsopgaverne kunne løses. Forslaget indeholdt dels forskellige bud på, hvordan løsningen teknisk kan indrettes, og dels forslag til ændring af den eksisterende lovgivning. Disse var blandt andet nødvendige, fordi både pligtafleveringsloven og ophavsretsloven begrænsede mulighederne for indsamling af materiale. Lovændringen blev vedtaget, og indsamlingen begyndte 1. juni i år.
De tekniske overvejelser gik på, om man skulle anvende RAID-teknologien (Redundant Array of Inexpensive Disks), der giver større fejlsikkerhed, og om man skulle gøre det på begge lagringslokationer. Og om man skulle nøjes med et online-arkiv, og have kopien liggende på bånd.
Valget faldt på en løsning, der anvender RAID i Århus, men ikke i København. Til gengæld lagrer man online på diske begge steder. Her drog man fordel af, at diske falder i pris. I København benytter man computere baseret op Windows XP og "så mange diske som muligt". I Århus benyttes et Linux-baseret storage-system fra EMC. Begge steder har man i øjeblikket en kapacitet på 10 terabyte.
Der køres et rent Java-miljø på indsamlings- og lagringsplatformene, dog kører man IBM JVM i København og Sun JVM i Århus.
- Det er lidt mere krævende for udviklerne, fordi de skal sikre sig, at det, de laver, skal kunne køre på begge systemer, men der er valgt to forskellige versioner af Java og to forskellige platforme for at mindske sårbarheden over for både forældelse og fejl i den virtuelle maskine. Hensigten er, at det indsamlede materiale skal være tilgængeligt til forskning også om mange år, siger Bjarne Andersen.

Indsamlingerne af data fra internettet kaldes høstninger. I øjeblikket foretager man tre forskellige typer.
Såkaldte tværsnitshøstninger, hvor man fire gange om året indsamler fra alle danske domæner. Det giver 24 terabyte. Herefter sorterer man de sider fra, der ikke er ændret siden sidste indsamling, og så står man tilbage med 10-12 terabyte, der skal lagres.
Det, der bliver indsamlet, er alt, der er offentliggjort - det vil sige i princippet tilgængeligt for alle. Det betyder, at materiale, som hvem som helst kan få adgang til, hvis de tegner abonnement, bliver indsamlet. Netarkivet har ret til at rekvirere de fornødne passwords, men denne del af indsamlingsprocessen er endnu ikke startet. Derimod er for eksempel materiale, der ligger på et firmas intranet, og dermed udelukkende er tilgængeligt for en begrænset gruppe, ikke omfattet af loven og indsamles ikke.
Dernæst foretages såkaldt selektiv høstning fra udvalgte sider. Det kan for eksempel være nyhedssites, hvor man indsamler forsider og niveauet under helt ned til en gang i timen. Disse sider er endnu ikke valgt, men man forventer, der bliver omkring 80. En række organisationer har indstillet medlemmer til en redaktionsgruppe bestående af fem personer, som skal rådgive i udvælgelsen af disse sider.
Endelig foretages begivenhedshøstning ved begivenheder, der har - som det hedder - national karakter. Den næste begivenhed, der er udvalgt er det kommende kommunalvalg, men som en test samlede man også data ind, der havde relation til det kongelige bryllup.
Den tre-strengede indsamlingsstrategi er blevet udviklet af Netarkivet i samarbejde med Center for Internet-forskning, der hører under Aarhus Universitets institut for Informations- og medievidenskab.

Indsamlingen af data foregår ved hjælp af open source-programmet Heritrix, som er udviklet af Internet Archive. Dette amerikanske non profit-initiativ har siden 1996 indsamlet websider fra hele internettet, som de gør tilgængelige på www.archive.org.
Heritrix indsamler på grundlag af en opdateret liste over danske domæner fra DK-Hostmaster. Systemet sætter høstningsjobbene i en "kø" og arkivere herefter siderne på den første ledige maskine i enten København eller Århus. Alle arkivfiler tjekkes på begge lokationer for at sikre fuld konsistens. Kø-systemet er en del af det samlede distribuerede system, der benytter JMS-teknologien (Java Messaging Service) til kommunikationen mellem de tyve servere, der indgår i opsætningen.
- Når alle maskiner høster, er vores behov vel 6 Mbit/s. Driftfolkene, der står for netværket og storageaktiviteterne på Statsbiblioteket, siger, at trafikken ikke er vokset markant, efter at vi startede disse aktiviteter, siger han.
Man starter med en indsamling, der tager ti objekter, som kan være undersider eller filer - alt hvad der kan linkes til - som sitet omfatter.
- Denne første søgning får sorteret de tyve procent af de registrerede domæner, der ikke er taget i brug, fra. Desuden får vi her en stor del af sitene, idet 60 procent af de registrerede domæner rummer mindre end ti objekter, siger Bjarne Andersen.
Næste gang indsamler man op til 50 objekter pr. site. Halvdelen af de resterende ligger under denne grænse.
I øjeblikket er Netarkivet ved at afslutte en indsamling af op til 5.000 objekter fra de cirka 25.000 sites, der har flere end 500 objekter. Siden indhøstningen begyndte i juli i år er der indsamlet 80 millioner objekter svarende til cirka 3,5 terabyte. Materialet lagres i det såkaldte ARC-format, der ligeledes er udviklet af Internet Archive, og lagres i portioner på 100 megabyte - typisk omfattende 3.000-4.000 objekter.
I øjeblikket er Netarkivet ved at fastlægge filtyper for henholdsvis dokumenter, billeder, lyd, video med mere, som man kan flytte materialet til. Dette er strategien for at sikre langtidsopbevaringen af materialet.
- Vi støder på i omegnen af 2.000 filtyper på nettet, men tyve formater (20 forskellige mine-types) står for 96 procent af materialet, siger Bjarne Andersen.

Billedtekst:
datahøst - Netarkivet indsamler fire gange om året data fra alle danske domæner. Det giver 24 terabyte. Herefter sorterer vi de sider fra, der ikke er ændret siden sidste indsamling, og så står vi tilbage med 10-12 terabyte, der skal lagres, fortæller driftsleder Bjarne Andersen fra Statsbiblioteket. Foto: Torben Klint

Boks:
En sidste forsvarslinje
Når Netarkivet gemmer data fra alle danske websider, ligger det lige for, at her er et sted virksomheder kunne henvende sig, hvis de af en eller anden grund skulle have mistet de data, der ligger på deres websted, og Netarkivet har fået den første hypotetiske forespørgsel, hvor en virksomhed ønskede at vide, om de havde denne mulighed, hvis uheldet skulle være ude.
- I øjeblikket er svaret nej. Adgangen til materialet er begrænset til forskere, og andre former for anvendelse vil kræve en lovændring. Et af problemerne er, at der ligger personfølsomme data på nettet. Det burde der ikke, men vi ved, at der for eksempel ligger foreningers medlemslister med videre. Derfor er arkivet underlagt Datatilsynets regler, og der er ikke offentlig adgang, siger Bjarne Andersen.
Netarkivet er ved at undersøge, om det er muligt at finde en metode til at adskille de personfølsomme data fra de øvrige, så man kan etablere et arkiv, der er offentligt tilgængeligt - dog med de begrænsninger, der ligger i loven om ophavsret.
Men der vil også være praktiske problemer for virksomheder, der måtte søge tabte data. Det er objekterne fra websitet, der er arkiveret, og hvis virksomheden har mistet alt - herunder content management systemet, der holder rede på objekterne, kan materialet vise sig at være værdiløst for virksomheden.





Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Kompetera A/S
Hardware, licenser, konsulentydelser

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
GDPR: Drift og dagligdag - effektive it-værktøjer

Du har nu (forhåbentligt) styr på virksomhedens dataflow i forhold til GDPR. På dette seminar bliver du præsenteret for en række af de mest effektive it-værktøjer til håndtering af persondata, så I lever op til GDPR: Inklusive varsling, samtykke, lagring, overblik, dokumentation og sletning.

21. februar 2019 | Læs mere


Få styr på det rigtige setup: Skal du vælge on prem eller cloud? Eller en kombination?

Mange virksomheder har i årevis opbevaret og håndteret deres data i egne datacentre, men med cloud computing er tingene for alvor i opbrud. På dette event bliver du klogere på de muligheder, som du har for at designe en hybrid cloud-infrastruktur, der kombinerer on-premise og forskellige cloud-former på bedst mulig måde for netop din forretning.

26. februar 2019 | Læs mere


Predictive business analytics - Brug AI og Machine learning til at forstå og forudsige dine kunders adfærd

Machine Learning og kunstig intelligens er ikke længere bare hype. Det er et værktøj, der for eksempel kan hjælpe dig med at give dine kunder individualiserede og relevante tilbud – og dermed øge både salg og kundetilfredshed. Data om dine kunder og deres adfærd er en uundværlig ressource i salgsarbejdet. Uden indsigt og kendskab til kunderne, er det en hovedløs jagt at skabe mersalg og styrke kundeloyaliteten. Machine Learning hjælper dig og dit salgspersonale med at bruge alle disse data og med meget stor sikkerhed at forudsige kundens næste køb.

27. februar 2019 | Læs mere





Flere dybdegående Computerworld artikler

"Det er skide sjovt, at vi nu også kan følge med i en masse data under kampene. Men det betyder også, at dårlige tabere kan henvise til vores bordfodbold-data"

Alle de indsamlede data bliver bearbejdet via machine-learning, der giver os en masse statistik på vores bordfodboldkampe. Vi kan eksempelvis se hvilket hold, der har haft bolden mest, og hvem der har flest skud på mål. Vi har også installeret en optisk sensor i målet, der registrerer, når der bliver scoret og holder styr på stillingen.

Erik Kaae stopper som topchef i EG efter salg til DXC Technology - forlader nu helt it-branchen
Morgen-briefing: Lars Seier henter dansk erhvervsprofil til krypto-virksomhed / Amazon investerer milliarder i Tesla-rival / Google køber grunde op via mystiske skuffeselskaber / Apple henter tidligere Microsoft-chef til ny smart home-satsning
Ugen i tech: Stort Samsung læk: Her er selskabets forårskollektion af wearables / Canon-prisbombe – halverer nærmest prisen på spritnyt fullframe kamera / Salg på prisstærkt Nvidia GTX1660 er tyvstartet.
2 Test af Microsoft Surface Laptop 2: En genial laptop - hvor Microsoft begår nogle sløje svipsere
Årets største mobil-messe åbner snart portene: Her er de fem nyheder, vi glæder os mest til
Netcompanys bestyrelsesformand trækker sig: Fravælger selskabet til fordel for andre bestyrelsesposter
11 Her er Googles svar på nye EU-regler, der 'kan ødelægge internettet for altid': "Detaljerne er vigtige"


Premium
Regeringens Disruptionsråd blev udskammet og latterliggjort – men nu får vi indblik i de reelle resultater
Regeringens Disruptionsråd blev udskammet og latterliggjort, da skuespilleren Helle Joof gjorde sig klog på indianerstammer og disruption. Men nu kan vi efter knap to år gøre status over rådets arbejde.
CIO
Tech fra Toppen: Det har CIO Mads Madsbjerg Hansen fra FLSmidth lært af flere års global it-konsolidering
Tech fra Toppen: Flere års arbejde har betydet en reduktion i antallet af it-systemer hos FLSmidth. Men processen har ikke været uden overraskelser. Hør hvad CIO Mads Madsbjerg Hansen har lært af den omfattende og globale proces.
Job & Karriere
Toke Kruse: Jeg spår, at humankapital i 2019 erstattes af it-kapital
I 2019 vil vi se en kæmpe udskiftning af ressourcer, hvorunder de menneskelige processer overtages af software, der gør os mennesker hurtigere og mere effektive. Betyder det store fyringsrunder? Måske.
White paper
Gratis e-bog: Mister du pusten på BI-bjergetapen? Tag den lige vej i stedet!
Denne e-bog er relevant for dig der sidder i en virksomhed, der allerede arbejder med Dynamics 365 for Finance & Operations, eller som overvejer at få det. Det er din genvej til at komme tilbage på BI-motorvejen, hurtigt og på den rigtige måde. Du finder ud af hvordan du kommer ud over bumpene og uden om hullerne på bjergvejen med CBI Plugin, så du igen kommer tilbage på motorvejen og kan køre direkte mod målet. Læs videre og bliv klogere på, hvordan du kommer over – eller helt undgår – de største bump på bjergetapen.