Skæbner er gravet frem fra glemslen med data mining

Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den Computerworld d. 4. oktober 2002.


Data mining-teknologi har gjort det muligt for ungarske historikere at klarlægge, hvad der skete med titusindvis af forsvundne ungarske krigsfanger.

Ungarske historikere har taget en for historikere utraditionel teknik i brug. Opgaven har været at finde ud af, hvilken skæbne, der egentlig overgik tusinder af de ungarske soldater, som blev taget til fange af Den røde Hær i slutningen af Anden Verdenskrig.
Metoden, der blev anvendt, var data mining af materiale samlet i forfaldne arkiver.
Ungarn kæmpede fra 1941 til 1945 på tysk side og sovjetiske tropper tog næsten en million ungarske fanger, hvoraf 750.000 døde i krigsfangelejre og koncentrationslejre.
De oplysninger historikerne nu er nået frem til skal blandt andet anvendes til at yde erstatning til de efterladte ifølge de love om kompensation, der blev vedtaget i Ungarn i 1990 efter kommunismens sammenbrud.
Samtidig anvendes materialet både af ungarske historikere, det ungarske Røde Kors og private brugere, der søger oplysninger om de forsvundne.
Analyse og kategorisering
Historikerne har anvendt et data mining system fra SAS Institute til at anlysere og kategorisere hundredetusindvis af dokumenter.
Data mining projektet er gennemført af historikerne i samarbejde med det ungarske it-konsulentfirma KFKI ISYS. Der har opbygget et data warehouse med oplysninger om krigsfangerne.
Grundmaterialet for forskningen er 58.781 optegnelser fra den russiske efterretningstjeneste NKVD's arkiver samt 630.897 dokumenter fra ungarske arkiver.
Dokumentkilderne var meget omfattende, usorterede, stort set ulæselige og skrevet både med kyrilliske og latinske bogstaver. Metodikken i optegnelserne fra de forskellige kilder var desuden vidt forskellig, og derfor på alle måder svære at have at gøre med.
Datakvalitet i centrum
En væsentlig opgave har således været den oprensning af data, der svarer til hvad der sker, når man opbygger et datawarehouse i en virksomhed.
Historikerne og it-specialisterne har anvendt særlige algoritmer til at skabe tre forskellige statistiske analysemetoder kombineret med sandsynlighedsberegninger. På den måde er informationer om blandt andet navne, tid og sted blevet sammenkædet på kryds og tværs.
Historikerne har opstillet kriterier for, hvor højt sammenfaldet af informationer fra de forskellige kilder skal være, for at de kan tillægges den tilstrækkelige sandhedsværdi.
Den fejltype, der har været afgørende, er først og fremmest manglende sammenfald mellem personer i arkiverne. Dernæst er de forskellige informations-par, hvor informationerne ikke stemmer tilstrækkeligt overens identificeret og sorteret fra.
På denne måde er historikerne nået frem til at klassificere omkring 36.000 personer, hvor sammenfaldet af oplysningerne fra de forskellige kilder er så stort, at det er sandsynligt, at informationerne er korrekte.
Navnene er nu lagt ud på webstedet www.hadifogoly.adatbanyaszat.hu. Her er det muligt for brugere at søge på informationerne i data warehouset.

Billedtekst:
Arkiverne har som det fremgår øverst fået lov at forfalde de sidste godt 50 år.

Billedtekst:
Kildematerialet i de sammenlignede arkiver er af meget vekslende kvalitet. Her ses ungarsk materiale.




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Jobindex Media A/S
Salg af telemarketing og research for it-branchen, it-kurser og konferencer

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
AI i det offentlige: Potentiale, erfaringer og krav

Hør erfaringerne med at anvende AI til at transformere og effektivisere processer i det offentlige – og med at sikre datakvalitet, governance og overholdelse af retningslinjer.

27. august 2025 | Læs mere


Computerworld Cloud & AI Festival 2025

Med den eksplosive udvikling indenfor cloud & AI er behovet for at følge med og vidensdeling større end nogensinde før. Glæd dig til to dage, hvor du kan netværke med over 2.400 it-professionelle, møde mere end 50 it-leverandører og høre indlæg fra +90 talere. Vi sætter fokus på emner som AI; infrastruktur, compliance, sikkerhed og løsninger for både private og offentlige organisationer.

17. september 2025 | Læs mere


IT og OT i harmoni: Sikring uden at gå på kompromis med effektiviteten

IT og OT smelter sammen – men med risiko for dyre fejl. Få metoder til sikker integration med ERP, kundesystemer og produktion. Tilmeld dig og få styr på forskellene og faldgruberne.

24. september 2025 | Læs mere