Formålet er at splitte en tekst op for hvert mellemrum eller punktum, men beholde punktummerne. "Dette er en test." skulle altså blive til arrayet ["Dette", "er", "en", "test", "."]
Desværre kommer mellemrum også med da parantesen i min reg.exp. omfatter hele gruppen og ikke kun punktummet, men det hjælper desværre ikke kun at sætte parantes om punktummet da parantesen så ignoreres.
Hmm, det minder mig om en anden besynderlighed... det gør jeg nemlig allerede, med denne funktion
def wordclean( self ): i = 0 while i < len( self.words ) : if self.words[i] == ' ' or self.words[i] == '' : del self.words[i] i = i + 1
Det har undret mig meget at denne funktion aldrig rigtigt får dem alle med. Men uanset hvad ville jeg faktisk helst helt af med den for at forbedre programmets performance (som pt. ikke er særlig god)
Nu da jeg er igang kunne du måske hjælpe mig med et tillægs spm... teksten får jeg enten fra en fil eller en URL, men jeg vil gerne sikre mig at der er tale om ren tekst eller et HTML dokument, og ikke f.eks. et Word dokument eller en zip fil.
Jeg har søgt i dokumentationen og på google men kan ikke finde noget overhovedet. Jeg forhøjer gerne pointsne hvis du har nogen ideer til hvordan jeg gør det.
Arne > Det er godt nok fikst, og næsten perfekt. Der kommer dog stadig nogen få tomme værdier med i arrayet, tilsyneladende efter hvert punktum. Hvis man kunne slippe af med dem kunne jeg helt undvære min oprydnings funktion :)
Bertel > Er det de is*** funktioner der er i curses.ascii modulet?
Mit håb var nu at kunne slå brugeren oven i hovedet med det samme hvis de valgte en forkert filtype, uden først at skulle åbne og læse filens indhold alt for meget. Kan man ikke læse en fils type direkte?
Det er sandt, men det vil jeg betegne som en højst uberegnelig metode som nok ikke engang bør overvejes. Specielt når vi taler om URL's, hvor "www.foo.dk/bar/" jo kunne være hvad som helst.
Kan være du har ret. Der må være en løsning men jeg har på fornemmelsen at det involverer meget mere end jeg bryder mig om, så foreløbigt vil jeg glemme det og arbejde på nogen af de andre ting der skal laves.
Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.