Gylleprojekt

Skrevet d. 6. februar 2009 kl. 09.12
Har du trænet med din computer i dag? Min opgave er at træne computeren i at rydde op i data. Det er typisk registre med navne og adresser på personer, virksomheder og alt muligt andet, der står for skud her.

Ud over at finde dubletter, rense, berige og så videre er øvelsen ofte også at dele registret op i 2 dele, henholdsvis de registreringer, som har noget med virkeligheden at gøre og så de registreringer, der bare er støj. Støj er sådan noget som "Test Testesen i Testby", "Må ikke bruges" og "asfsadjsagd" - men også mere spidsfindige eksempler.

Computeren gør det hårde arbejde og deler typisk materialet op i 3 bunker. En stor bunke med det, som med stor sandsynlighed er OK, bliver lagt til venstre. En mindre bunke med det, som med stor sandsynlighed er støj, bliver lagt ud til højre og en lille bunke med det, som er tvivlsomt, står nu tilbage.

Første tvivlsomme kandidat i dagens arbejde lyder navnet "Gylleprojekt". Hmmm. Hvis ikke lige dette var data fra en landbrugsorganisation skulle den nok ud til højre. Nu kommer den i det gode selskab i stedet. Det er vist det, som man kalder kontekstafhængig.


Kommentarer til blogindlæg


Kommentér

Ytringer på debatten er afsenders eget ansvar - læs debatreglerne







Mest læste seneste uge

For under 100 millioner svenske kroner har svenskerne løst politiets it-problemer. I Danmark er budgettet sprængt med mere end 100 procent.

#Fail - sådan skal du ikke gøre. Se hvordan store virksomheder klokker i det på Facebook og Twitter.

Er du klædt på til succes, eller spiller tøjet ingen rolle på din arbejdsplads? Læs her, hvordan danske it-medarbejdere går klædt i virksomheder som Mærsk, Google og i en lille dansk kommune.

CSC mister sin største privatkunde i Danmark. Hundredvis af CSC-ansatte kan blive berørt.

Med 4G kommer du voldsomt hurtigt på nettet med mobilt bredbånd. Men hvilken udbyder skal du vælge?