百度不遵守robots.txt协议
很多网友质疑百度遵守了robots.txt协议,今天蓝兔给大家提供一个百度不遵守robots.txt协议的佐证。
为了让SinoBlog支持wap访问的页面不被搜索引擎索引,我在SinoBlog的robots.txt 追加了 Disallow: /wap/,可是有一天我无意中发现,即使禁止机器人访问wap这个目录,对百度而言也是不起作用。
在百度中site:www.sinoblog.org/wap/ ,居然找到相关网页400篇。

在Google中site:www.sinoblog.org/wap/ ,却只有一个搜索结果,Google是严格遵守robots.txt协议的。

百度的网页搜索帮助-站长FAQ文档有说:
- 百度严格遵循搜索引擎Robots协议(详细内容,参见http://www.robotstxt.org/)。
- 您可以写一个Robots文件以限制您的网站全部网页或者部分目录下网页不被百度收录。具体写法,参见:如何撰写Robots文件。
- 如果您的网站是在被百度收录之后再设置Robots文件,则Robots文件通常在两周内生效,被文件限制的内容,将从百度搜索结果中移除。
- 如果您的拒绝被收录需求非常急迫,也可以发邮件给webmaster@baidu.com请求处理。
前段时间淘宝宣布正式屏蔽百度搜索,这是淘宝网的robots.txt:
User-agent: Baiduspider Disallow: / User-agent: baiduspider Disallow: /
…我们正在酝酿开辟绿色通道,让卖家直接向百度索引库提交他们的网店页面URL链接地址,而不再需要百度爬虫过去抓取。
我想,罗列了这么些的事实依据,也不用再多说别的了, 百度不遵守robots.txt协议,这是一个铁铮铮的事实!
充电:
维基百科对robots.txt 的定义:
robots.txt(统一小写)是一种存放于网站根目录下的 ASCII 编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。因为一些系统中的 URL 是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt 应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的 robots.txt,或者使用robots元数据。
robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的私隐。
作者:蓝兔
原文链接:百度不遵守robots.txt协议
Sino Blog 版权所有,转载时必须以链接形式注明作者和原始出处及本声明。
沙发+好文.
有理有据. 批判的精彩.
这下百度大婶的丑恶, 呵呵.
你引用的那些话前面的竖线怎么加的啊?
CSS里面定义:
.content blockquote { padding-left: 10px; border-left: 2px solid #027ac6; margin: 10px 0 10px 25px; background: #edf5fa;}
发表文章的时候使用〈blockquote〉…〈/blockquote〉这组标签
百度不遵守规则已经是铁一般的事实·!
CSS定义的那段需要放在哪里啊?
CSS文件里面,比如你的
http://blog.lovehr.net/wp-content/themes/classic/style.css
我知道,我是说在那里面的位置是任意位置还是?
任意位置~
百度,确实够狠啊
但大多数搜索用户并不关心这个
没来得及删除而已吧
而且是铁一般的事实~
我的就给收了~
langzui.com下的的一博客也是这样,明明在robots里禁止了搜索引擎的抓取,但百度上还是有信息。后来我也没写了,删了。