百度不遵守robots.txt协议

October 8th, 2008
Goto comments 569 views

很多网友质疑百度遵守了robots.txt协议,今天蓝兔给大家提供一个百度不遵守robots.txt协议的佐证。

为了让SinoBlog支持wap访问的页面不被搜索引擎索引,我在SinoBlog的robots.txt 追加了 Disallow: /wap/,可是有一天我无意中发现,即使禁止机器人访问wap这个目录,对百度而言也是不起作用。

在百度中site:www.sinoblog.org/wap/ ,居然找到相关网页400篇。

百度不遵守robots.txt协议

在Google中site:www.sinoblog.org/wap/ ,却只有一个搜索结果,Google是严格遵守robots.txt协议的。

 Google严格遵守robots.txt协议

百度的网页搜索帮助-站长FAQ文档有说:

  • 百度严格遵循搜索引擎Robots协议(详细内容,参见http://www.robotstxt.org/)。
  • 您可以写一个Robots文件以限制您的网站全部网页或者部分目录下网页不被百度收录。具体写法,参见:如何撰写Robots文件。
  • 如果您的网站是在被百度收录之后再设置Robots文件,则Robots文件通常在两周内生效,被文件限制的内容,将从百度搜索结果中移除。
  • 如果您的拒绝被收录需求非常急迫,也可以发邮件给webmaster@baidu.com请求处理。

前段时间淘宝宣布正式屏蔽百度搜索,这是淘宝网的robots.txt

User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /

第二天百度C2C回应屏蔽风波:将为淘宝卖家开绿色通道

…我们正在酝酿开辟绿色通道,让卖家直接向百度索引库提交他们的网店页面URL链接地址,而不再需要百度爬虫过去抓取。

我想,罗列了这么些的事实依据,也不用再多说别的了, 百度不遵守robots.txt协议,这是一个铁铮铮的事实!

充电:

维基百科对robots.txt 的定义

robots.txt(统一小写)是一种存放于网站根目录下的 ASCII 编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。因为一些系统中的 URL 是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt 应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的 robots.txt,或者使用robots元数据。

robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的私隐。

互联网络 ,

  1. October 8th, 2008 at 09:50 | #1

    沙发+好文.

  2. October 8th, 2008 at 09:50 | #2

    有理有据. 批判的精彩.
    这下百度大婶的丑恶, 呵呵.

  3. October 8th, 2008 at 14:42 | #3

    你引用的那些话前面的竖线怎么加的啊?

  4. October 8th, 2008 at 15:23 | #4

    CSS里面定义:
    .content blockquote { padding-left: 10px; border-left: 2px solid #027ac6; margin: 10px 0 10px 25px; background: #edf5fa;}

    发表文章的时候使用〈blockquote〉…〈/blockquote〉这组标签

  5. October 8th, 2008 at 15:50 | #5

    百度不遵守规则已经是铁一般的事实·!

  6. October 8th, 2008 at 16:48 | #6

    CSS定义的那段需要放在哪里啊?

  7. October 8th, 2008 at 16:54 | #7
  8. October 8th, 2008 at 20:53 | #8

    我知道,我是说在那里面的位置是任意位置还是?

  9. October 9th, 2008 at 09:46 | #9

    任意位置~

  10. October 9th, 2008 at 22:19 | #10

    百度,确实够狠啊
    但大多数搜索用户并不关心这个

  11. October 11th, 2008 at 06:33 | #11

    没来得及删除而已吧

  12. October 11th, 2008 at 14:25 | #12

    而且是铁一般的事实~

  13. November 29th, 2008 at 11:27 | #13

    我的就给收了~

  14. December 23rd, 2008 at 12:09 | #14

    langzui.com下的的一博客也是这样,明明在robots里禁止了搜索引擎的抓取,但百度上还是有信息。后来我也没写了,删了。

  1. No trackbacks yet.