Webhosting 

Hoe weer ik robots en crawlers van mijn website?

Het kan zijn dat uw website regelmatig wordt bezocht door robots / web crawlers die uw gehele website afgaan om deze in kaart te brengen. Dit wordt gedaan door bijvoorbeeld zoekmachines en is opzich geen probleem. Soms wil u echter bepaalde delen van uw site (nog) niet geindexeerd hebben of soms blijven bots vastzitten in een loop op uw website waardoor ze erg veel dataverkeer van uw pakket verbruiken, in dat geval is het handig een bot te kunnen weigeren op uw website. Dit kan u doen door het plaatsen van een robots.txt bestand in de map /httpdocs van uw hostingaccount met de juiste code.

Het eenvoudigste robots.txt-bestand gebruikt twee belangrijke termen, namelijk User-agent en Disallow. User-agents zijn zoekmachinerobots (of webcrawlers). Disallow ('niet toestaan') is een opdracht voor de user-agent die aangeeft dat een bepaalde URL niet mag worden doorzocht. Als u bijvoorbeeld google echter wel toegang tot een bepaalde URL wilt verlenen en deze URL een onderliggende directory van een bovenliggende 'niet toegestane' directory is, gebruik je een derde trefwoord, namelijk Allow.

De syntaxis voor het gebruik van de trefwoorden is als volgt:

User-agent: [naam van de robot zie http://www.robotstxt.org/db.html ]

Disallow: [het pad van de url die u wilt blokkeren]

Allow: [het pad van de url dat u specifiek wil toestaan]

Deze twee regels worden beschouwd als één item in het bestand, waarbij de regel Disallow alleen van toepassing is op de bovenliggende user-agent(s). U kan zo veel items opgeven als u wil. U kan meerdere Disallow-regels en meerdere user-agents in een item zetten. U kan instellen dat de opdracht User-agent van toepassing is op alle webcrawlers door een asterisk (*) toe te voegen zoals in het onderstaande voorbeeld:

User-agent: *

Via de volgende URL kan u een database vinden van de verschillende robots die over het internet struinen;

http://www.robotstxt.org/db.html

Hieronder vind u nog enkele voorbeelden van het blokkeren van robots via de robots.txt;

- De hele site blokkeren:

Disallow: /

- Een directory blokkeren:

Disallow: /directorynaam/

- Een specifieke pagina blokkeren:

Disallow: /betreffendbestand.html

-  Alle bots blokkeren behalve 1 specifiek (voorbeeld adsense bot van google):

User-agent: *

Disallow: /

User-agent: Mediapartners-Google

Allow: /