Notifikationer

Markér alle som læst Log ud

deurell Nybegynder

26. september 2003 - 11:11 Der er 3 kommentarer og
2 løsninger

Lave sin egen web crawler?

Google har googlebot.
Andre store søgesider har deres egne søgemaskiner, der traver gennem en masse sider og læser deres meta tags.
Om det hedder en web crawler er bare noget jeg gætter på, men hvordan laver man et sådant program?
Kan man lave det som et script? i fx php.
Jeg ved intet om dette i forvejen.
Svar må gerne indeholde navne på sprog det kan laves i.
Evt. konkrete simple løsninger.
Links til tutorials om emnet.

mvh Deurell

Synes godt om

jakoba Nybegynder

26. september 2003 - 11:38 #1

Ja, den kan laves i php.

her er en meget lille grow en:

<?php

$websted = "http://www.w3.org/";

function laesfil( $url ) {
$fildata = file( $websted );
// gennemlæs filen og aflæs metatags osv osv.
for ( $i=0; i<count($fildata); $i++ ) {
$temp = "";
$liste = eregi_replace( "/.*href=['\"]([^'\"]+)['\"].*/",
"$tmp,//1",
$fildata[$i] );
$liste = substr( $liste, 1 ); // fjern allerforreste komma.
$listearray = explode( ",", $liste );
for ( $j=0; $j<count($listearray); $j++ ) {
laesfil( $lisetearray[$j]; // følg alle links i siden og læs dem også
}
}

laesfil( $websted );

?>

ovenstående er kun et eksempel, og det får det til at se nemt ud.
DET ER IKKE NEMT
Der er tusinder af undtagelser der skal tages højde for:
Hvad med døde links? skal scriptet bare dø.
hvad med links der går i cirkel (dit websted peger på mit og mit peger tilbage) der skal noget hukommelse til så du ikke besøger samme side 2 gange
Hvad med din udbyder. tillader han overhovedet at du sådan lader et script stå og gnave i dagevis (de fleste har en timeout på ca 30 sekunder)
hvad med sære links (til fx pdf-filer, billeder og lyd).
...

mvh JakobA

Synes godt om

bufferzone Praktikant

26. september 2003 - 11:38 #2

På www.webmasterworld.com findes nettets bedste kilder til iformationer om de forskellige søgemaskiner, herunder et special forum til udvikling af egne søgemaskiner og robotter. Læs de forskellige fora igennem og stil spørgsmål der, jeg er sikker på at du kan finde alle de svar du søger og mere tis.

Synes godt om

arne_v Ekspert

26. september 2003 - 11:49 #3

Medmindre du specielt er meget interesseret i at kode
en crawler, så brug lynx browseren til at crawle med. I crawl
mode smider den alle siderne på disk og så kan man indeksere
dem der.

Hvis du skal kode det selv ville jeg vælge et sprog som C/C++/C#Java.

Synes godt om

deurell Nybegynder

26. september 2003 - 13:34 #4

Jeg smutter lige på weekend og kigger på diverse svar når jeg er tilbage til noget internet....
tak for svarene indtil videre.

Synes godt om

deurell Nybegynder

28. september 2003 - 23:30 #5

Jeg takker for hjælpen og prøver begge løsninger af.

Synes godt om

Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Følg dette spørgsmål

Opret Preview

Programmeringssprog kurser

Kurser inden for grundlæggende programmering

Se alle Programmeringssprog kurser

Flere spørgsmål fra Andet programmering kategorien

Titel	Indlæg	Oprettet	Seneste aktivitet
Bat file. Af johnnylassen i Andet programmering	4	23/04/202616:10	24/04/202609:43
Hjælp til Api.asmx Af lurup i Andet programmering	1	17/03/202609:27	17/03/202614:12
burgermenu til hjemmeside - hjælp! Af SabrinaL i Andet programmering	2	12/11/202514:10	02/12/202520:42
Hjælp til programmering af website Af hamdenlange i Andet programmering	16	17/08/202522:26	19/08/202515:53
Kan man registrere hvis folk lukker en side ned Af KurtG i Andet programmering	8	24/07/202513:06	28/07/202517:03

Se alle spørgsmål i kategorien Opret spørgsmål

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester

Alle kategorier på Eksperten

Seneste artiklerRSS