Notifikationer

Markér alle som læst Log ud

pemo123456 Novice

25. april 2009 - 16:32 Der er 6 kommentarer og
1 løsning

robots.txt allow og disallow

Giver nedenstående tekst i en robots.txt fil nogen mening? Formålet med opsætningen skal være, at webcrawlerne "udelukkes" fra en generel adgang til at indeksere sitet, men samtidig gives adgang til at indeksere mappen xxx.

Hvis nedenstående ikke giver mening, hvordan løser jeg så problemet? Kan webcrawlerne indeksere en side/mappe, hvor der er en .htaccess / .htpasswd beskyttelse?

User-agent: *
Disallow: /
Allow: /xxx/

Synes godt om

thesurfer Nybegynder

25. april 2009 - 17:16 #1

Ja, din robots.txt giver mening. Faktisk er det den eneste logiske måde (med hensyn til sikkerheden) at opnå netop det du ønsker.

Du fortæller søgemaskinerne at de overhovedet ikke må indeksere sitet, og derefter fortæller du dem at de må indekserer mappen "xxx".

Alternativet er at fortælle dem, at de ikke må indekserer mappen "mappe1", "hemmeligemappe" osv.

Men så kan man se hvilken mapper der indeholder følsomme oplysninger (nemlig "hemmeligemappe").

Synes godt om

pemo123456 Novice

25. april 2009 - 17:24 #2

Hej

Tak for svar. Jeg synes bare at have læst, at "allow" kommandoen ikke er særlig brugt, og måske endda kun kan forstås af googlebot og ikke andre søgemaskiner??!!?

Mvh Per

Synes godt om

thesurfer Nybegynder

25. april 2009 - 17:32 #3

Det "normale" formål med robots.txt er at forhindre søgemaskiner i at indeksere sites.

Så, man kunne sige at det "normale" ville være at putte "mappe1", "hemmeligemappe" i disallow.

Det svarer til at man siger "du må ikke se under gulvet, hvor jeg har gemt en stor pose penge".

Af sikkerhedsmæssige årsagen, er det mere logisk at sige "jeg har ingen penge. Jeg har dog nogle få mønter på skrivebordet".

Der er lige en vigtig ting du skal huske:

robots.txt er IKKE lov!

Det betyder, at søgemaskinerne IKKE behøver at følge den.

Spambots der indsamler e-mail-adresse (kaldet "spamdexing") vil højst sandsynlig ignorere robots.txt, idet filen forhindre spambotten i dens primære funktion, som er at indsamle data der kan indeholde e-mail-adresser.

Man kan så sætte fælder op, der blokerer for de IP adresser, som spambots kommer fra, ved at lægge filen i mapper der er tilføjet til "disallow".

Synes godt om

thesurfer Nybegynder

25. april 2009 - 17:34 #4

Rettelse: Udtrykket "spamdexing" bruges ofte på sider der indeholder en masse irrelevant data, for at logge søgemaskinerne til sig..

Synes godt om

pemo123456 Novice

25. april 2009 - 17:39 #5

Hej

Med dit sidste svar går jeg så ud fra, at Allow nu bruges bredt af søgebots.

Mht. det du skriver om spambots, bør de og andre ikke blive spærret, når der er en .htaccess og .htpasswd restriktion på sitet? Dette er lidt ekstra. Smid under alle omstændigheder et svar, så du kan runde 100.000 point! :-)

Synes godt om

thesurfer Nybegynder

25. april 2009 - 17:47 #6

Man kan normalt ikke se forskel på en spambot og en søgemaskine, som f.eks. googlebot.

Begge er programmer/bots der automatisk indeksere sites.

Forskellen er dog nok at spambots kan finde på at ignorerer disallow i robots.txt, hvilket officielle søgemaskiner, som f.eks. Google, når ikke vil gøre.

Den "nemmeste" måde at fange spambots på, er at bruge disallow på en mappe, der indeholder en index eller default fil, som tilføjer dens IP til en blacklist-liste. Når den så loader den næste side, vil den blive blokeret da dens IP allerede er blacklistet.

Lad os håbe at de officielle søgemaskine-bots respekterer robots.txt..

100k, Here I come! :-)

Synes godt om

thesurfer Nybegynder

25. april 2009 - 17:54 #7

Takker for points :-)

Synes godt om

Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Følg dette spørgsmål

Opret Preview

Programmeringssprog kurser

Kurser inden for grundlæggende programmering

Se alle Programmeringssprog kurser

Flere spørgsmål fra Andet programmering kategorien

Titel	Indlæg	Oprettet	Seneste aktivitet
udstyr til udespa Af Hightech i Andet programmering	1	I går 09:42	I går 15:28
Bat file. Af johnnylassen i Andet programmering	4	23/04/202616:10	24/04/202609:43
Hjælp til Api.asmx Af lurup i Andet programmering	1	17/03/202609:27	17/03/202614:12
burgermenu til hjemmeside - hjælp! Af SabrinaL i Andet programmering	2	12/11/202514:10	02/12/202520:42
Hjælp til programmering af website Af hamdenlange i Andet programmering	16	17/08/202522:26	19/08/202515:53

Se alle spørgsmål i kategorien Opret spørgsmål

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester

Alle kategorier på Eksperten

Seneste artiklerRSS