Avatar billede olinuxo Nybegynder
11. maj 2014 - 20:56 Der er 3 kommentarer

Hjælp til preg_match_all

Hej,

jeg ønsker at finde alle URL i en tekst, ved brug af file_get_contents.

Jeg har pt. denne preg_match_all:

preg_match_all ('/(http|https)\:\/\/[a-zA-Z0-9\-\.]\.[a-zA-Z]{2,3}(\/\S*)?/', $url, &$matches);

Jeg mangler dog, hvis indholdets "a href" kun indeholder undersider (eksempel "/index.php" og ikke "domæne.dk/index.php"). Kan man på nogen måde få flettet ind, at den ligeledes finder det der står i href samtidigt alle andre domæner, som evt. blot står skrevet i sidens tekst-indhold?
Avatar billede jakobdo Ekspert
11. maj 2014 - 21:27 #1
Jeg ville nok gøre det på følgende måde...

Din preg_match_all du har der, vil finde alle "fulde" url'er på siden.

Dem smider du ind i et array eller lign.

Herefter laver du en preg_match_all der finder alle href="...." og så må du "smage" på om der er tale om fuld url eller ej.
Starter den ikke med http / ftp eller lign, så kan du smide den "url" du crawler ind og herefter smide den "fulde-url" ind i dit array fra før.

Så kan du lave en unique på det array og du har alle urls.
Avatar billede olinuxo Nybegynder
13. maj 2014 - 21:38 #2
Arrhh.. den var for nem - den lå jo lige til højrebenet. Tak Jakob..

Kvitter da lige med et svar, tak.. :-)
Avatar billede jakobdo Ekspert
13. maj 2014 - 22:16 #3
Svar!
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester



Seneste spørgsmål Seneste aktivitet
I går 20:46 opkaldside Af hagbartm i Mobiltelefoner
I går 16:05 win 10 vil ikke boote Af bb69 i Windows
I går 11:20 Lenovo x390 Af tobberjas i PC
I går 10:14 Alder i Excel Af Nanarsi i Excel
I går 09:00 Flere linier på faneblad Af Peder Lund Nielsen i Excel