Avatar billede deurell Nybegynder
26. september 2003 - 11:11 Der er 3 kommentarer og
2 løsninger

Lave sin egen web crawler?

Google har googlebot.
Andre store søgesider har deres egne søgemaskiner, der traver gennem en masse sider og læser deres meta tags.
Om det hedder en web crawler er bare noget jeg gætter på, men hvordan laver man et sådant program?
Kan man lave det som et script? i fx php.
Jeg ved intet om dette i forvejen.
Svar må gerne indeholde navne på sprog det kan laves i.
Evt. konkrete simple løsninger.
Links til tutorials om emnet.

mvh Deurell
Avatar billede jakoba Nybegynder
26. september 2003 - 11:38 #1
Ja, den kan laves i php.

her er en meget lille grow en:

<?php

$websted = "http://www.w3.org/";

function laesfil( $url ) {
    $fildata = file( $websted );
    // gennemlæs filen og aflæs metatags osv osv.
    for ( $i=0; i<count($fildata); $i++ ) {
        $temp = "";
        $liste = eregi_replace( "/.*href=['\"]([^'\"]+)['\"].*/",
                                "$tmp,//1",
                                $fildata[$i] );
        $liste = substr( $liste, 1 ); // fjern allerforreste komma.
        $listearray = explode( ",", $liste );
        for ( $j=0; $j<count($listearray); $j++ ) {
            laesfil( $lisetearray[$j];      // følg alle links i siden og læs dem også
        }
    }

laesfil( $websted );

?>

ovenstående er kun et eksempel, og det får det til at se nemt ud.
    DET ER IKKE NEMT
Der er tusinder af undtagelser der skal tages højde for:
  Hvad med døde links? skal scriptet bare dø.
  hvad med links der går i cirkel (dit websted peger på mit og mit peger tilbage) der skal noget hukommelse til så du ikke besøger samme side 2 gange
  Hvad med din udbyder. tillader han overhovedet at du sådan lader et script stå og gnave i dagevis (de fleste har en timeout på ca 30 sekunder)
  hvad med sære links (til fx pdf-filer, billeder og lyd).
  ...

mvh JakobA
Avatar billede bufferzone Praktikant
26. september 2003 - 11:38 #2
www.webmasterworld.com findes nettets bedste kilder til iformationer om de forskellige søgemaskiner, herunder et special forum til udvikling af egne søgemaskiner og robotter. Læs de forskellige fora igennem og stil spørgsmål der, jeg er sikker på at du kan finde alle de svar du søger og mere tis.
Avatar billede arne_v Ekspert
26. september 2003 - 11:49 #3
Medmindre du specielt er meget interesseret i at kode
en crawler, så brug lynx browseren til at crawle med. I crawl
mode smider den alle siderne på disk og så kan man indeksere
dem der.

Hvis du skal kode det selv ville jeg vælge et sprog som C/C++/C#Java.
Avatar billede deurell Nybegynder
26. september 2003 - 13:34 #4
Jeg smutter lige på weekend og kigger på diverse svar når jeg er tilbage til noget internet....
tak for svarene indtil videre.
Avatar billede deurell Nybegynder
28. september 2003 - 23:30 #5
Jeg takker for hjælpen og prøver begge løsninger af.
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
Kurser inden for grundlæggende programmering

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester

IT-JOB

Politiets Efterretningstjeneste

CNE-specialist til PET`s indhentningsafdeling

Forsvarsministeriets Materiel- og Indkøbsstyrelse

IT-Sikkerhedsrådgiver til Cyberdivisionen i Hvidovre

Ringkjøbing Landbobank – Nordjyske Bank

Forretningsudvikler til procesoptimering

Forsvarsministeriets Materiel- og Indkøbsstyrelse

Ingeniør til Satellitkommunikation