De la construction du fichier robots.txt

Tout d'abord, le fichier robots.txt est normalisé. Son nom doit toujours être écrit de cette façon, en minuscules uniquement. Puisqu'il s'agit d'un ficher au format texte, on utilisera un éditeur simple du genre Bloc-Notes de Windows. Structure du robots.txt :

User-Agent: *
# Ici, on peut préciser un bot particulier mais c'est peu utile
# dans la mesure où les crawlers malveillants ne respectent
# pas les directives de ce fichier...
Disallow:
# Ici, on peut indiquer au robot de ne pas indexer des fichiers
# ou des dossier peu utiles pour les internautes.
# Disallow: / signifie que rien ne doit être indexé
# Disallow: /toto.php signifie que le fichier toto.php
# ne doit pas être indexé. Disallow: /deco/ signifie que le
# contenu du dossier deco ne doit pas être indexé.
Sitemap: http://domaine.com/sitemap.xml
# Bien que l'instruction Sitemap: ne soit toujours pas référencée
# par le W3C, il est recommandé de l'utiliser parce qu'elle a fait
# l'objet d'un accord entre les principaux acteurs sur le marché
# des moteurs de recherche. En effet, c'est cette instruction qui
# indiquera la localisation du sitemap à tous les robots...

Ce qu'il ne faut pas faire :
- placer des lignes vides dans un robots.txt car la première sera interprétée comme une fin de fichier par certains spiders
- utiliser des commandes "maison" qui ne seront pas reconnues par tous les bots comme Allow: de Google, qui est d'ailleurs inutile puisque "Allow:" est l'équivalent de "Disallow: /" et que "Allow: /" est celui de "Disallow:", c'est à dire une autorisation de tout indexer.

- Retour à la page : Du référencement

© 2007 - 2009 par Thierry JR Cavalié, ingénieur-concepteur de systèmes d'information et de communicationAller à l'accueil