Werken met het Robots.txt bestand
Het robots.txt bestand is een ASCII bestand welke specifieke instructies heeft voor zoekmachine robots over specifieke inhoud welke ze niet mogen indexeren. Deze instructies zijn de beslissende factor over hoe een zoekmachine uw website indexeert. Het universele webadres van het robots.txt bestand is : http://www.domein.nl/robots.txt . Dit is het eerste bestand dat een robot bezoekt. De zoekmachine robot volgt hier de instructies op over hoe een website geindexeerd moet worden. Dit bestand bevat twee tekstvelden. Laten we het volgende robots.txt bestand analyseren:
User-agent: *
Disallow:
Het User-agent veld is om te specificeren voor welke robots het disallow field geldt. Het disallow veld specificeert de URLs waar de robots geen toegang tot hebben. Een voorbeeld:
User-agent: *
Disallow: /
Hier betekend "*" alle robots en "/" betekend alle URLs. Dit betekend dat er geen enkele zoekmachine toegang krijgt tot elke URL. Een ander voorbeeld:
#Toegang voor de Googlebot.
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /concepts/new/
Hier zien we dat beide velden zijn herhaald. Er kunnen meerdere commando's worden gegeven voor verschillende user-agents in verschillende lijnen. Het bovenstaan voorbeeld betekend dat alle robots geen toegang hebben tot /concepts/new/ behalve Googlebot. Googlebot heeft volledige toegang. Tekst gevolgd na # wordt genegeerd omdat dit als functie een commentaar heeft.
Werken met het robots.txt bestand.
- Het robots.txt bestand moet altijd in kleine letters worden geschreven.
- Wildcards zijn niet toegestaan in beide velden. Alleen * kan worden gebruikt in het User-agent veld. Googlebot is de enige robot dat sommige wildcard extensies ondersteund.
- Een robots.txt bestand is een exclusief bestand bestemd voor zoekmachine robots. Als het bestand leeg is of ontbreekt heeft elke robot toegang tot de gehele website.
- Er kan maar 1 robot.txt bestand worden gebruikt per domein.
- Gebruik alleen kleine letters voor de inhoud van het robots.txt bestand.
Voordelen van het robots.txt bestand.
- Het robots.txt bestand kan worden gebruikt om ongewenste robots zoals email extractors, afbeelding rippers de toegang te blokkeren.
- Het robots.txt bestand kan worden gebruikt om mappen te specificeren waar je een robot geen toegang tot wil verlenen.
Nadelen van het robots.txt bestand.
Het specificeren van prive mappen die niet mogen worden gevolgd door robots kan leiden tot hackers die je website afspeuren door het bestuderen van je robots.txt bestand. Dit kan worden opgevangen door deze mappen te beveiligen met een gebruikersnaam en wachtwoord.
Beoordeling: Nog niet beoordeeld
