Dataklassificering: ILM’s svære kunst

Tema: Klassificering af data er en af de vigtigste discipliner i ILM-arbejdet. Nye teknologier lover at automatisere arbejdet.

08. september 2006 kl. 15.44

Dan Mygind

It-afdelinger står over for en ny opgave: Klassificering af den store mængde ustrukturerede data, som ligger spredt omkring på virksomhedens servere og arbejdsstationer.

Det er nødvendigt, hvis virksomheden ønsker at have styr på sine data og være sikker på, at data opbevares på den bedste, billigste og sikreste måde.

Typen af data afgør, hvor tit der skal tages backup, hvilket storagemedie, der skal anvendes, og hvordan data skal sikres.

Klassificeringen af data er del af en ILM-proces.

- Det er ikke alle, der er i gang med at klassificere data, men der er stor forståelse for området, siger Bjarne Madsen, HP, der er nordisk formand for storageorganisationen SNIA.

Få styr på dine data

Et ILM-projekt starter typisk med en analyse af virksomhedens data.

Formålet er blandt andet at klassificere data ud fra, hvor ofte de anvendes, og hvor vigtige de er for forretningen.

Det har betydning for, hvordan data skal håndteres, og hvilke storage-enheder som data skal gemmes på.

- De fleste ved godt, hvad de har liggende af data, men de har ikke nødvendigvis klassificeret dem. Klassifikationen kan ske ud fra mange parametre siger Bjarne Madsen.

- Afhængig af hvordan man vælger at gøre, kan en klassifikation baseret på historik være med til at ændre backup-procedurerne, så man kun tager backup af de ændrede data, slutter han.

Datahistorik er en klassificeringsmetode. En anden metode er at se på den forretningsmæssige betydning af data.

Klassificeres efter loven

Endelig kan man også klassificere data ud fra, om der er lovgivningsmæssige krav knyttet til data.

- En anden parameter, man klassificerer data efter, er indholdet, betydningen af data. Det er vigtigt at vide,hvilken slags data der er tale om. Det kan eksempelvis være patientdata på et hospital, siger Bjarne Madsen.

- Den slags data skal behandles med en hvis konfidentialitet. På den måde spiller datasikkerhed også ind i dataklassifikationen.

Automatisk klassificering

Der findes i dag værktøjer, der kan være med til at bestemme historikken for ustrukturerede data. Men også vurderingen af datas forretningsmæssige betydning kan man få hjælp til.

Det sker ved hjælp af Intelligent Information Management (IIM) eller Intelligent Classification Management (ICM), som det også kaldes.

Det er firmaer som Kazeon, Njini, Trusted Edge, StoredIQ og Index Engines, som lover at lette klassificerings-arbejdet.

Nogle af løsningerne danner et fuldt tekstindeks på baggrund af indholdet af en fil.

Andre løsninger søger filer igennem for bestemte ord eller sætninger og klassificerer dem ud fra brugerbestemte regler.

Løsningerne kan blandt andet anvendes til at markere filer, der indeholder konfidentielle oplysninger.

Ifølge Bjarne Madsen er det endnu ikke noget, som anvendes i stor stil blandt SNIA’s medlemmer.

- Jeg har ikke kendskab til, at der er meget af den slags i produktion. Det er ikke noget, vi har diskuteret indgående i SNIA, siger Bjarne Madsen, der umiddelbart er lidt afventende over for værktøjerne.

- Jeg tror ikke, man undgår at have et menneske ind over og vurdere datas forretningsmæssige betydning.

Begejstret for IIM

Analytikeren Claus Egge fra IDC er mere begejstret for IIM.

- IIM vil være en stor hjælp, hvis det kan blive en del af ILM, siger Claus Egge, der spår at IIM/ICM markedet med tiden vil blive stort.

- Det bliver stort, men det tager tid. Før det bliver mainstream, skal nogle af de store gå ind i det, siger Claus Egge, der nævner, at Njinis produkt allerede anvendes af nogle engelske selskaber.

Det ser da også ud til, at de store storageleverandører vil tage IIM/ ICM-konceptet til sig. Storagegiganten EMC har meldt ud, at de vil lancere et IIM/ICM-produkt i løbet af dette halvår.