25. april 2009 - 16:32Der er
6 kommentarer og 1 løsning
robots.txt allow og disallow
Giver nedenstående tekst i en robots.txt fil nogen mening? Formålet med opsætningen skal være, at webcrawlerne "udelukkes" fra en generel adgang til at indeksere sitet, men samtidig gives adgang til at indeksere mappen xxx.
Hvis nedenstående ikke giver mening, hvordan løser jeg så problemet? Kan webcrawlerne indeksere en side/mappe, hvor der er en .htaccess / .htpasswd beskyttelse?
Tak for svar. Jeg synes bare at have læst, at "allow" kommandoen ikke er særlig brugt, og måske endda kun kan forstås af googlebot og ikke andre søgemaskiner??!!?
Det "normale" formål med robots.txt er at forhindre søgemaskiner i at indeksere sites.
Så, man kunne sige at det "normale" ville være at putte "mappe1", "hemmeligemappe" i disallow.
Det svarer til at man siger "du må ikke se under gulvet, hvor jeg har gemt en stor pose penge".
Af sikkerhedsmæssige årsagen, er det mere logisk at sige "jeg har ingen penge. Jeg har dog nogle få mønter på skrivebordet".
Der er lige en vigtig ting du skal huske:
robots.txt er IKKE lov!
Det betyder, at søgemaskinerne IKKE behøver at følge den.
Spambots der indsamler e-mail-adresse (kaldet "spamdexing") vil højst sandsynlig ignorere robots.txt, idet filen forhindre spambotten i dens primære funktion, som er at indsamle data der kan indeholde e-mail-adresser.
Man kan så sætte fælder op, der blokerer for de IP adresser, som spambots kommer fra, ved at lægge filen i mapper der er tilføjet til "disallow".
Med dit sidste svar går jeg så ud fra, at Allow nu bruges bredt af søgebots.
Mht. det du skriver om spambots, bør de og andre ikke blive spærret, når der er en .htaccess og .htpasswd restriktion på sitet? Dette er lidt ekstra. Smid under alle omstændigheder et svar, så du kan runde 100.000 point! :-)
Man kan normalt ikke se forskel på en spambot og en søgemaskine, som f.eks. googlebot.
Begge er programmer/bots der automatisk indeksere sites.
Forskellen er dog nok at spambots kan finde på at ignorerer disallow i robots.txt, hvilket officielle søgemaskiner, som f.eks. Google, når ikke vil gøre.
Den "nemmeste" måde at fange spambots på, er at bruge disallow på en mappe, der indeholder en index eller default fil, som tilføjer dens IP til en blacklist-liste. Når den så loader den næste side, vil den blive blokeret da dens IP allerede er blacklistet.
Lad os håbe at de officielle søgemaskine-bots respekterer robots.txt..
Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.