VimIy微民网,让世界倾听微民的声音! 设为首页 | 加入收藏 | 网站地图
当前位置:主页 > 恶搞 >

[是洗地还是高端黑?]专家否认robots协议[奇虎的五毛拿好]

时间:2012-09-05 17:59 来源:www.vimiy.com 作者:编辑 点击:

评论:Robots协议的争论毫无意义
    新闻发布日期:2012-09-04 07:22:12
    新闻主题: cnBeta 博文精选
    
    近期,由于国内互联网上出现了一个新的搜索引擎竞争者,关于搜索引擎是否应当遵守Robots协议的问题成为了业内人士讨论的热点。一些人宣称:Robots协议是搜索领域的行业规范,触犯Robots协议是没有底线的行为,不禁不合法,而且还会泄露用户隐私。
    笔者也马马虎虎算是个IT工程师,不过主要研究方向是通信技术,在计算机和互联网领域,只能说是比外行人强点,但比内行人还差得多,充其量是个半专业人士。出于好奇,本人查阅了一些和Robots协议相关的资料以及近期的各种热门评论,结果惊讶的发现,那些所谓的“专家”原来绝大多数都是“伪专家”,不过是利用人们对“Robots”的陌生和对“专家”的信任在混淆视听。
    
      虽然我顶多算是半个专业人士,但还是希望能说几句真话,希望能够帮助读者更加接近真相。
    
      Robots协议的由来
    
      早期的互联网主要是“用户-网站”模式。用户通过网站获取信息,网站通过吸引用户点击来实现广告收入。不过,当Google把搜索引擎变成一种成功的商业模式之后,很多网站原有的商业模式遭到了严重的破坏。因为很多用户会停留在搜索引擎的搜索结果之中,不再访问信息的源头或发布信息的网站。
    
      于是,为了维护自身的利益,一些欧美大型网站联合起来与Google谈判,要求Google必须做到“有所为有所不为”,于是就有了“Robots协议”。
    
      Robot,又称Spider,是搜索引擎自动获取网页信息的电脑程序的通称。Robots协议的核心思想就是要求Robot程序不要去检索那些站长们不希望被直接搜索到的内容。将约束Robot程序的具体方法规范成格式代码,就成了Robots协议。一般来说,网站是通过Robots.txt文件来实现Robots协议。
    
      Robots协议的影响
    
      国内使用Robots协议最典型的案例,就是淘宝网和新浪微博拒绝百度搜索。不过,绝大多数中小网站都需要依靠搜索引擎来增加流量,因此通常并不排斥搜索引擎,也很少使用Robots协议。
    
      一些站长和程序员还把Robots协议当成偷懒的工具:对于那些本来需要加密保存的信息或限制访问的内容,他们只是写个了Robots.txt文件,要求搜索引擎不要去访问,之后便以为万事大吉。这不是典型的掩耳盗铃吗?
    
      不过,Robots协议最深远的影响还是帮助Google和百度这样的垄断搜索引擎遏制后起的竞争者。这是因为,Google当年在制定这个协议时,特意留下了后手,即:协议中不仅包括是否允许搜索引擎进行搜索的内容,还包括允许谁和不允许谁进行搜索内容。Google和百度在实现了垄断地位之后,就利用这些排斥性规则挡住了后来的进入者。
    
      微软的必应,国产的搜狗、搜搜等搜索引擎,虽然运行多年,但搜索结果始终差强人意,并不是因为他们的技术能力真的不如百度,很大程度上就是受到了Robots协议的影响。
    
      Robots协议的误区
    
      有了前面的介绍,我们就可以来揭露那些“伪专家”们是如何误导技术知识有限的广大公众的。
    
      1)Robots协议不是行业规范,更不是国际标准
    
      所谓的Robots协议,其实就是Google自己制定的一个协议规范,并不是各大搜索厂商的共识或统一的协议,也从来没有任何一家国内搜索引擎服务商公开承诺遵守Robots协议或签署类似协议或声明。
    
      所以说,Robots协议连个行业规范都算不上,更别说什么国际标准了,即便在美国,也只有Google把它当回事来说,而不是真的当回事来做。
    
      不过客观的说,确实有一些网站站长误以为Robots协议是强制规范,误以为写了Robots.txt就万事大吉了。
    
      2)Robots协议和保护用户隐私毫不相干
    
      研究之后我才发现,最普遍,但也是最可笑的一种言论就是把Robots协议和用户隐私保护扯上关系,说什么违背Robots协议是泄漏用户隐私的主要原因。
    
      Robots协议即不是什么加密算法,也不是什么安全机制,怎么可能阻止外部用户访问相关数据呢?确切的说,Robots协议希望解决的,不是用户能不能访问的问题,而是用户是否可以通过搜索引擎来访问的问题。就算Robots协议挡得住搜索引擎,那也挡不住用户访问啊。只要用户能够从外部访问,那该“泄密”还是会“泄密”。
    
      想通过Robots协议来保护私密数据,实际上只是一些懒惰的站长们误解和滥用了Robots协议。所谓的搜索引擎泄露用户隐私,本质上说,还是网站本身安全性严重欠缺。
    
      到底有谁在遵守Robots协议
    
      到底谁遵守了Robots协议?这个问题很有挑战性。
    
      最近几天,百度和360相互揭底,各自爆出了不少对方违背Robots协议的案例。非常有趣的是,对于这些案例,双方采取的应对措施都是揭露对方的更多案例,而谁也没敢正面质疑对方提供案例的真实性。同时,在这些爆料中,包括Google在内其他一些国内国外主流搜索引擎也都或多或少的,不幸的躺着中枪。
    
      这些事情似乎在告诉我们,Robots协议只不过是某些人口中讨伐对手的工具而已,其实,起码在中国,谁也没太把Robots协议真的当回事,除非是自己的垄断地位受到威胁!
    360在水区天天被黑
    作为360员工压力很大
    其实我自己是不用360产品的
    不对。。浏览器是360的 这货洗地太恶心了,有本事就随便说一个不遵守robots的搜索引擎,哪那么多废话。
    猪一样的七毛啊都不是这个专业的,比一般人强,比专家弱,然后研究,得出个结论,专家都在放屁,研究个蛋蛋...专注360黑20年
    
    

关于网站 | 网站声明 | 用户反馈 | 合作伙伴 | 联系我们
Copyright © 2012年2月8日