Fichier 'robots.txt'
Il est possible à l'aide de ce fichier, d'indiquer aux robots les répertoires et fichiers que vous ne souhaitez pas indexer.
Ce fichier doit obligatoirement être placé à la racine de votre site (ex: http://www.votresite.com/robots.txt). Si vous le placez dans un autre dossier, il n'est tout simplement pas utilisé.
Format du fichier 'robots.txt'
Le format est en texte simple, avec une indication par ligne
Remarques: la ligne n'est pas utilisée par le robot
# texte de remarque
Indication du nom du robot pour les lignes suivantes:
User-agent: RobotNom
la marque '*' indique: pour tous les robots:
User-agent: *
Indication des pages ou dossiers interdits:
Disallow: /dossier/
Disallow: /autre/sous-dossier/
Disallow: /fichier.html
Disallow: /autre/index.html
Exemples de fichiers
Un fichier "robots.txt" simple, ressemble à celui-ci:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Dans cet exemple, l'accès est interdit à tous les robots, pour 3 répertoires.
Si vous souhaitez interdire la totalité du site:
User-agent: *
Disallow: /
Si vous souhaitez donner l'accès à la totalité du site:
User-agent: *
Disallow:
ou un fichier vide.
Il est possible d'interdire ou d'autoriser l'accès à certains robots uniquement:
# Fichier 'robots.txt' pour 'http://www.monsite.com/'
User-agent: BadBot
Disallow: /
User-agent: WebCrawler
Disallow: /special/
Disallow: /autre/info.html
User-agent: *
Disallow:
Le robot 'BadBot' n'a pas accès au site, le robot 'WebCrawler' a lui accès à tout le site sauf le dossier 'special' et le fichier 'info.html', les autres robots peuvent indexer tout le site.