Vrijdag, 30 Juli 2010

Werken met het Robots.txt bestand

Het robots.txt bestand is een ASCII bestand welke specifieke instructies heeft voor zoekmachine robots over specifieke inhoud welke ze niet mogen indexeren. Deze instructies zijn de beslissende factor over hoe een zoekmachine uw website indexeert. Het universele webadres van het robots.txt bestand is : http://www.domein.nl/robots.txt . Dit is het eerste bestand dat een robot bezoekt. De zoekmachine robot volgt hier de instructies op over hoe een website geindexeerd moet worden. Dit bestand bevat twee tekstvelden. Laten we het volgende robots.txt bestand analyseren:

User-agent: *

Disallow:

Het User-agent veld is om te specificeren voor welke robots het disallow field geldt. Het disallow veld specificeert de URLs waar de robots geen toegang tot hebben. Een voorbeeld:

User-agent: *

Disallow: /

Hier betekend "*" alle robots en "/" betekend alle URLs. Dit betekend dat er geen enkele zoekmachine toegang krijgt tot elke URL. Een ander voorbeeld:

#Toegang voor de Googlebot.

User-agent: Googlebot

Disallow:

User-agent: *

Disallow: /concepts/new/

Hier zien we dat beide velden zijn herhaald. Er kunnen meerdere commando's worden gegeven voor verschillende user-agents in verschillende lijnen. Het bovenstaan voorbeeld betekend dat alle robots geen toegang hebben tot /concepts/new/ behalve Googlebot. Googlebot heeft volledige toegang. Tekst gevolgd na # wordt genegeerd omdat dit als functie een commentaar heeft.

 

Werken met het robots.txt bestand.

  1. Het robots.txt bestand moet altijd in kleine letters worden geschreven.
  2. Wildcards zijn niet toegestaan in beide velden. Alleen * kan worden gebruikt in het User-agent veld. Googlebot is de enige robot dat sommige wildcard extensies ondersteund.
  3. Een robots.txt bestand is een exclusief bestand bestemd voor zoekmachine robots. Als het bestand leeg is of ontbreekt heeft elke robot toegang tot de gehele website.
  4. Er kan maar 1 robot.txt bestand worden gebruikt per domein.
  5. Gebruik alleen kleine letters voor de inhoud van het robots.txt bestand.

Voordelen van het robots.txt bestand.

  1. Het robots.txt bestand kan worden gebruikt om ongewenste robots zoals email extractors, afbeelding rippers de toegang te blokkeren.
  2. Het robots.txt bestand kan worden gebruikt om mappen te specificeren waar je een robot geen toegang tot wil verlenen.

Nadelen van het robots.txt bestand.

Het specificeren van prive mappen die niet mogen worden gevolgd door robots kan leiden tot hackers die je website afspeuren door het bestuderen van je robots.txt bestand. Dit kan worden opgevangen door deze mappen te beveiligen met een gebruikersnaam en wachtwoord.


Plaatsen/stemmen op NUjij Plaatsen/stemmen op MSN Reporter Plaatsen/stemmen op Bligg.nl Plaatsen/stemmen op Grubb Tip dit artikel! Plaatsen/stemmen op MSN Reporter Plaatsen/stemmen op Bligg.be Plaatsen/stemmen op Netjes.be Plaatsen/stemmen op Digg Toevoegen aan Symbaloo Stumble it! Voeg dit artikel toe aan Del.icio.us Toevoegen aan Furl Voeg toe aan je Google bladwijzers

Beoordeling: Nog niet beoordeeld

Reacties

Nog geen reacties.

Reageer

Naam:


Email:


Reactie

Suchmaschinenoptimierung mit Ranking-Hits