很多网友质疑百度遵守了robots.txt协议,今天蓝兔给大家提供一个百度不遵守robots.txt协议的佐证。
为了让SinoBlog支持wap访问的页面不被搜索引擎索引,我在SinoBlog的robots.txt 追加了 Disallow: /wap/,可是有一天我无意中发现,即使禁止机器人访问wap这个目录,对百度而言也是不起作用。
在百度中site:www.sinoblog.org/wap/ ,居然找到相关网页400篇。

在Google中site:www.sinoblog.org/wap/ ,却只有一个搜索结果,Google是严格遵守robots.txt协议的。

百度的网页搜索帮助-站长FAQ文档有说:
- 百度严格遵循搜索引擎Robots协议(详细内容,参见http://www.robotstxt.org/)。
- 您可以写一个Robots文件以限制您的网站全部网页或者部分目录下网页不被百度收录。具体写法,参见:如何撰写Robots文件。
- 如果您的网站是在被百度收录之后再设置Robots文件,则Robots文件通常在两周内生效,被文件限制的内容,将从百度搜索结果中移除。
- 如果您的拒绝被收录需求非常急迫,也可以发邮件给webmaster@baidu.com请求处理。
前段时间淘宝宣布正式屏蔽百度搜索,这是淘宝网的robots.txt:
User-agent: Baiduspider Disallow: / User-agent: baiduspider Disallow: /
…我们正在酝酿开辟绿色通道,让卖家直接向百度索引库提交他们的网店页面URL链接地址,而不再需要百度爬虫过去抓取。
我想,罗列了这么些的事实依据,也不用再多说别的了, 百度不遵守robots.txt协议,这是一个铁铮铮的事实!
充电:
维基百科对robots.txt 的定义:
robots.txt(统一小写)是一种存放于网站根目录下的 ASCII 编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。因为一些系统中的 URL 是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt 应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的 robots.txt,或者使用robots元数据。
robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的私隐。