07. juni 2006 - 13:23Der er
10 kommentarer og 1 løsning
Adressevask-kriterier og varianter
Jeg skal i gang med at opstille nogle kriterier for adressevask/beautifier.
Mit datasæt består udelukkende af adresser med store bogstaver, som herefter som skal vaskes, med et output hvor adresserne er med stort forbogstav, stort efter punktum ... samt alle andre forekomne stave-varianter
Er der nogen som har erfaring med en lignende opgave, og hvordan har I grebet opgaven an ?????
I dette særtema om aspekter af AI ser vi på skiftet fra sprogmodeller til AI-agenter, og hvordan virksomheder kan navigere i spændet mellem teknologisk hastighed og behovet for menneskelig kontrol.
Det nemmeste er nok først at konvertere hele dynen med vbProperCase og derefter køre Søg-Og-Erstat på alle de kendte kombinationer, du kan komme i tanke om, altså A/S, I/S, c/o, ApS, osv osv. D'Angleterre er så speciel, så den vil du nok ikke kunne opstille en regel for. Eller måske ... Hvis ' efterfølges af et bogstav, skal bogstavet ændres til UpperCase. Det må være namnam for en kodehaj.
fdata > jeg har endnu ikke modtaget testdata ... men jeg er opmærksom på, at at opgaven ikke er lige til højrebenet ...
Under alle omstændigheder er den største showstopper nok performance i sådan en opgave ... datasættet består af minimum 3-4 mio records, hertil kommer stavevarianter af samme gadenavne ( Sct. Jørgensgade / Sankt Jørgensgade ... o.s.v. )
Som de siger i reklamen: "Det er svært at se, hvad der er snavs og hvad der er pletter" ... og det bliver jo nok værre endnu. Jeg tror godt du kan bestille mavesårsmedicinen med det samme. God fornøjelse ;o]
Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.