搜索引擎使用spider 程序自动访问互联网上的网页并获取网页信息。spider 在访问一个网站时, 会首先会检查该网站的根域下是否有一个叫做robots.txt 的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt,在文件中声明 该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分。
请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt 文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt 文件或者创建一个内容为空的robots.txt 文件
robots.txt是放在网站的根目录下的,比如Google的robots.txt地址是:http://www.google.com/robots.txt,百度的robots.txt地址是:http://www.baidu.com/robots.txt。
以下是Sino Blog 的robots.txt文件内容:
#
# robots.txt for sinoblog.org
# Version 4.0.0
#
User-agent: *
Disallow: /ggads/
Disallow: /function/
Disallow: /FCKeditor/
Disallow: /SCRIPT/
Disallow: /ADMIN/
Disallow: /blog/ADMIN/
Disallow: /blog/function/
Disallow: /lianhua/ADMIN/
Disallow: /lianhua/function/