Avatar billede pemo123456 Novice
25. april 2009 - 16:32 Der er 6 kommentarer og
1 løsning

robots.txt allow og disallow

Giver nedenstående tekst i en robots.txt fil nogen mening? Formålet med opsætningen skal være, at webcrawlerne "udelukkes" fra en generel adgang til at indeksere sitet, men samtidig gives adgang til at indeksere mappen xxx.

Hvis nedenstående ikke giver mening, hvordan løser jeg så problemet? Kan webcrawlerne indeksere en side/mappe, hvor der er en .htaccess / .htpasswd beskyttelse?


User-agent: *
Disallow: /
Allow: /xxx/
Avatar billede thesurfer Nybegynder
25. april 2009 - 17:16 #1
Ja, din robots.txt giver mening. Faktisk er det den eneste logiske måde (med hensyn til sikkerheden) at opnå netop det du ønsker.

Du fortæller søgemaskinerne at de overhovedet ikke må indeksere sitet, og derefter fortæller du dem at de må indekserer mappen "xxx".

Alternativet er at fortælle dem, at de ikke må indekserer mappen "mappe1", "hemmeligemappe" osv.

Men så kan man se hvilken mapper der indeholder følsomme oplysninger (nemlig "hemmeligemappe").
Avatar billede pemo123456 Novice
25. april 2009 - 17:24 #2
Hej

Tak for svar. Jeg synes bare at have læst, at "allow" kommandoen ikke er særlig brugt, og måske endda kun kan forstås af googlebot og ikke andre søgemaskiner??!!?

Mvh Per
Avatar billede thesurfer Nybegynder
25. april 2009 - 17:32 #3
Det "normale" formål med robots.txt er at forhindre søgemaskiner i at indeksere sites.

Så, man kunne sige at det "normale" ville være at putte "mappe1", "hemmeligemappe" i disallow.

Det svarer til at man siger "du må ikke se under gulvet, hvor jeg har gemt en stor pose penge".

Af sikkerhedsmæssige årsagen, er det mere logisk at sige "jeg har ingen penge. Jeg har dog nogle få mønter på skrivebordet".


Der er lige en vigtig ting du skal huske:

  robots.txt er IKKE lov!

Det betyder, at søgemaskinerne IKKE behøver at følge den.

Spambots der indsamler e-mail-adresse (kaldet "spamdexing") vil højst sandsynlig ignorere robots.txt, idet filen forhindre spambotten i dens primære funktion, som er at indsamle data der kan indeholde e-mail-adresser.


Man kan så sætte fælder op, der blokerer for de IP adresser, som spambots kommer fra, ved at lægge filen i mapper der er tilføjet til "disallow".
Avatar billede thesurfer Nybegynder
25. april 2009 - 17:34 #4
Rettelse: Udtrykket "spamdexing" bruges ofte på sider der indeholder en masse irrelevant data, for at logge søgemaskinerne til sig..
Avatar billede pemo123456 Novice
25. april 2009 - 17:39 #5
Hej

Med dit sidste svar går jeg så ud fra, at Allow nu bruges bredt af søgebots.

Mht. det du skriver om spambots, bør de og andre ikke blive spærret, når der er en .htaccess og .htpasswd restriktion på sitet? Dette er lidt ekstra. Smid under alle omstændigheder et svar, så du kan runde 100.000 point! :-)
Avatar billede thesurfer Nybegynder
25. april 2009 - 17:47 #6
Man kan normalt ikke se forskel på en spambot og en søgemaskine, som f.eks. googlebot.

Begge er programmer/bots der automatisk indeksere sites.

Forskellen er dog nok at spambots kan finde på at ignorerer disallow i robots.txt, hvilket officielle søgemaskiner, som f.eks. Google, når ikke vil gøre.

Den "nemmeste" måde at fange spambots på, er at bruge disallow på en mappe, der indeholder en index eller default fil, som tilføjer dens IP til en blacklist-liste. Når den så loader den næste side, vil den blive blokeret da dens IP allerede er blacklistet.

Lad os håbe at de officielle søgemaskine-bots respekterer robots.txt..



100k, Here I come! :-)
Avatar billede thesurfer Nybegynder
25. april 2009 - 17:54 #7
Takker for points :-)
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
Kurser inden for grundlæggende programmering

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester