Gylleprojekt
Skrevet d. 6. februar 2009 kl. 09.12
Har du trænet med din computer i dag? Min opgave er at træne computeren i at rydde op i data. Det er typisk registre med navne og adresser på personer, virksomheder og alt muligt andet, der står for skud her.
Ud over at finde dubletter, rense, berige og så videre er øvelsen ofte også at dele registret op i 2 dele, henholdsvis de registreringer, som har noget med virkeligheden at gøre og så de registreringer, der bare er støj. Støj er sådan noget som "Test Testesen i Testby", "Må ikke bruges" og "asfsadjsagd" - men også mere spidsfindige eksempler.
Computeren gør det hårde arbejde og deler typisk materialet op i 3 bunker. En stor bunke med det, som med stor sandsynlighed er OK, bliver lagt til venstre. En mindre bunke med det, som med stor sandsynlighed er støj, bliver lagt ud til højre og en lille bunke med det, som er tvivlsomt, står nu tilbage.
Første tvivlsomme kandidat i dagens arbejde lyder navnet "Gylleprojekt". Hmmm. Hvis ikke lige dette var data fra en landbrugsorganisation skulle den nok ud til højre. Nu kommer den i det gode selskab i stedet. Det er vist det, som man kalder kontekstafhængig.
Kommentarer til blogindlæg