很多网友质疑百度遵守了robots.txt协议,今天蓝兔给大家提供一个百度不遵守robots.txt协议的佐证。

为了让SinoBlog支持wap访问的页面不被搜索引擎索引,我在SinoBlog的robots.txt 追加了 Disallow: /wap/,可是有一天我无意中发现,即使禁止机器人访问wap这个目录,对百度而言也是不起作用。

在百度中site:www.sinoblog.org/wap/ ,居然找到相关网页400篇。

百度不遵守robots.txt协议

在Google中site:www.sinoblog.org/wap/ ,却只有一个搜索结果,Google是严格遵守robots.txt协议的。

Google严格遵守robots.txt协议

百度的网页搜索帮助-站长FAQ文档有说:

  • 百度严格遵循搜索引擎Robots协议(详细内容,参见http://www.robotstxt.org/)。
  • 您可以写一个Robots文件以限制您的网站全部网页或者部分目录下网页不被百度收录。具体写法,参见:如何撰写Robots文件。
  • 如果您的网站是在被百度收录之后再设置Robots文件,则Robots文件通常在两周内生效,被文件限制的内容,将从百度搜索结果中移除。
  • 如果您的拒绝被收录需求非常急迫,也可以发邮件给webmaster@baidu.com请求处理。

前段时间淘宝宣布正式屏蔽百度搜索,这是淘宝网的robots.txt

User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /

第二天百度C2C回应屏蔽风波:将为淘宝卖家开绿色通道

…我们正在酝酿开辟绿色通道,让卖家直接向百度索引库提交他们的网店页面URL链接地址,而不再需要百度爬虫过去抓取。

我想,罗列了这么些的事实依据,也不用再多说别的了, 百度不遵守robots.txt协议,这是一个铁铮铮的事实!

充电:

维基百科对robots.txt 的定义

robots.txt(统一小写)是一种存放于网站根目录下的 ASCII 编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。因为一些系统中的 URL 是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt 应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的 robots.txt,或者使用robots元数据。

robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的私隐。

One Response to “百度不遵守robots.txt协议”

  1. zhang hong says:

    过去我是不知道,现在估计任何SEO高手都不能直接对Baidu搜索和搜索快照有很好的优化,很多拥有很多内容(网页)的老网站都被K了(连www.sina.com.cn 的Baidu快照都近7年多不更新了)。我们可以认为百度是一个垃圾的骗钱网站,目的就是钱和用钱排名。站长不要为百度没有收录或收录减少而又被所谓的“SEO高手”欺骗(如是SEO高手,先解释为什么在百度搜索:site:www.sina.com.cn 有7年没有更新),大家扔掉Baidu一样会光明,因为百度已经沦落为最大的互联网癞皮。原文请看(图文):http://www.macsetup.cn/file_208.html

Leave a Reply