Avatar billede thomasaarhus Nybegynder
07. december 2004 - 21:39 Der er 3 kommentarer og
1 løsning

Regular Expression til at udtage html elementer

Jeg har brug for at finde alle <h1> elementer i et html dokument:

<h1> Tilfældigt h1 element </h1>

Og jeg troede at jeg kunne gøre det med dette regular expression:

<h1>.*</h1>

Desværre virker det ikke hvis der er linieskift imellem <h1> og </h1>, og jeg er bange for at der måske også er andre tegn, der ikke går ind under punktum (".").

Hvordan løser jeg det?

Vh Thomas
Avatar billede arne_v Ekspert
07. december 2004 - 21:49 #1
Prøv med Pattern.DOTALL flaget
Avatar billede arne_v Ekspert
07. december 2004 - 21:49 #2
Eksempel:

import java.util.regex.*;

public class H1Parse {
    private static Pattern p = Pattern.compile("(?:<h1>)(.*?)(?:</h1>)", Pattern.DOTALL);

    public static void findHeaders(String s) {
        Matcher m = p.matcher(s);
        while (m.find()) {
            System.out.println("h1=" + m.group(1));
        }
    }

    public static void main(String[] args) throws Exception {
        findHeaders("<h1>xxx</h1>\r\nyyy");
        findHeaders("<h1>xxx</h1>\r\nyyy\r\n<h1>zzz</h1>\r\nwww");
        findHeaders("<h1>xxx</h1>\r\nyyy\r\n<h1>zzz\r\nzzz</h1>\r\nwww");
    }
}
Avatar billede thomasaarhus Nybegynder
07. december 2004 - 23:23 #3
Tak. Lægger du et svar?
Avatar billede arne_v Ekspert
07. december 2004 - 23:24 #4
svar
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
Kurser inden for grundlæggende programmering

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester