Webhosting 

Hoe weer ik robots en crawlers van mijn website.

Het kan zijn dat je website regelmatig wordt bezocht door robots / web crawlers die je gehele website afgaan om deze in kaart te brengen, dit wordt gedaan door bijvoorbeeld zoekmachines en is opzich geen probleem. Soms wil je echter bepaalde delen van je site (nog) niet geindexeerd hebben of soms blijven bots vastzitten in een loop op je website waardoor ze erg veel dataverkeer van je pakket verbruiken, in dat geval is het handig een bot te kunnen weigeren op je website. Dit kan je doen door het plaatsen van een robots.txt bestand in de map /httpdocs van je hostingaccount met de juiste code.

Het eenvoudigste robots.txt-bestand gebruikt twee belangrijke termen, namelijk User-agent en Disallow. User-agents zijn zoekmachinerobots (of webcrawlers). Disallow ('niet toestaan') is een opdracht voor de user-agent die aangeeft dat een bepaalde URL niet mag worden doorzocht. Als je bijvoorbeeld google echter wel toegang tot een bepaalde URL wilt verlenen en deze URL een onderliggende directory van een bovenliggende 'niet toegestane' directory is, gebruik je een derde trefwoord, namelijk Allow.

De syntaxis voor het gebruik van de trefwoorden is als volgt:

User-agent: [naam van de robot zie http://www.robotstxt.org/db.html ]

Disallow: [het pad van de url die je wilt blokkeren]

Allow: [het pad van de url dat je specifiek wil toestaan]

Deze twee regels worden beschouwd als één item in het bestand, waarbij de regel Disallow alleen van toepassing is op de bovenliggende user-agent(s). Je kan zo veel items opgeven als je wil. Je kan meerdere Disallow-regels en meerdere user-agents in een item zetten.Je kan instellen dat de opdracht User-agent van toepassing is op alle webcrawlers door een asterisk (*) toe te voegen zoals in het onderstaande voorbeeld:

User-agent: *

Via de volgende URL kan je een database vinden van de verschillende robots die over het internet struinen;

http://www.robotstxt.org/db.html

Hieronder vind je nog enkele voorbeelden van het blokkeren van robots via de robots.txt;

- De hele site blokkeren:

Disallow: /

- Een directory blokkeren:

Disallow: /directorynaam/

- Een specifieke pagina blokkeren:

Disallow: /betreffendbestand.html

-  Alle bots blokkeren behalve 1 specifiek (voorbeeld adsense bot van google):

User-agent: *

Disallow: /

User-agent: Mediapartners-Google

Allow: /