Avatar billede bomann Nybegynder
17. oktober 2006 - 12:02 Der er 7 kommentarer og
1 løsning

HTML parser incl source søges

Jeg skal lave en html parser, men hvis der er nogen der allerede har lavet en (højest sandsynligt) og vil dele sourcen (C#) er der jo ingen grund til unødigt arbejde ;)

Den skal som minimum kunne trække alle links ud af htmlen og fjerne target, style mm. på <a> tagget
Avatar billede md_craig Nybegynder
19. oktober 2006 - 13:57 #1
Avatar billede 2c Nybegynder
19. oktober 2006 - 14:26 #2
Jeg brugte denne i forbindelse med et projekt i skolen engang: http://www.codeproject.com/csharp/htmlparser.asp
Den virkede fint.
Avatar billede bomann Nybegynder
19. oktober 2006 - 14:43 #3
Ja, det ser ud til at der er blevet brugt noget tid på at skrue den sammen.
Jeg savner dog 2 ting.

1. Muligheden for at læse teksten mellem <a> start og </a> slut (se eksemplet nedenfor)
2. Muligheden for at fjerne attributter

Er det bare mig der ikke kan se mulighederne?


Min parser skal kunne f.eks. kunne lave

<a href="http://www.test.it" style="style"><font>Linktekst</font></a>

om til

<a href="http://www.test.it">Linktekst</a>

For <a> tagget gælder, at det efter at være parset kun må indeholde href attributten og så må teksten "Linktekst" ikke indeholde nogen form for formatering <font> eller what ever

For <img> tagget gælder, at det kun må indeholde src attributten
Avatar billede bomann Nybegynder
19. oktober 2006 - 15:51 #4
2c: Det ser lovende ud. Jeg kan ikke downloade sourcen, da man skal være oprettet som member, og siden fejler når man forsøger at oprette sig. Jeg prøver igen senere.

An error has occurred
Oops!
Hear that crunching sound? Something just broke.

Why did this happen?
Because either we screwed up in a way that wasn't immediately obvious until now, or because the ASP engine running this site has just rolled over and died, or because the site is simply having a bad hair day.
Avatar billede bomann Nybegynder
19. oktober 2006 - 17:17 #5
Jeg kan ikke umiddelbart se at den kan løse min problemstilling.
Avatar billede segato Nybegynder
20. oktober 2006 - 14:00 #6
Der findes to måder at gøre det på. Brug mshtml eller SGMLReader som er skrevet af en microsoft gut. Tror du mildest talt vil bliver overasket over hvorsvært det er at skrive en selv.
Avatar billede segato Nybegynder
20. oktober 2006 - 14:01 #7
Avatar billede bomann Nybegynder
13. juli 2007 - 11:05 #8
closed
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
IT-kurser om Microsoft 365, sikkerhed, personlig vækst, udvikling, digital markedsføring, grafisk design, SAP og forretningsanalyse.

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester