8月31日,奇虎CEO周鸿祎召开媒体专访,沟通了他对360搜索的布局和设想,并对三百大战引发的关于“违反robots协议违规抓取百度内容”等问题做出回应。
然而在专访文章中,周鸿祎对五个关系到360搜索正当性的重要问题,却采取了混淆视听或直接回避的态度。本文希望再次提出这些问题与周鸿祎商榷,并希望周总能够正面回答。
一、360搜索是独立的搜索引擎?
周鸿祎专访时强调,360搜索和百度半点关系都没有,完全是创新的产物。此前,在360搜索的官方声明中,更声称“360搜索引擎是七年磨一剑,360搜索是用自有先进搜索技术打造的独立搜索引擎”。
要做独立的搜索引擎,最基础的功夫就是要让爬虫去爬全网数据。而360的爬虫是什么时候才出现的?2012年8月27日,360搜索官方微博才正式推出“360蜘蛛”,并提示站长设置允许抓取的robots.txt协议。360蜘蛛在短短半个月内索引的网页量,就足够支撑360搜索满足用户需求,成为“第二大搜索引擎”吗?360的蜘蛛难道都是传说中的“蜘蛛侠”?
可能的解释,要么是360蜘蛛以伪装的身份默默爬了七年网页,从没知会过站长;要么就是从其他搜索引擎那里“拿”了一些数据。
笔者以“site”命令把搜索范围限定在特定站点中时,还发现许多网站根本没有被360搜索蜘蛛爬过,包括新浪网、58同城等热门大站。然而搜索相关关键词时,360搜索却能展示来自这些网站的搜索结果快照。
有站长直接爆料称:“我在服务器上查看蜘蛛日志,发现了很大的问题。我站在7月份上线到8月16号360spider从来没有爬行,到8月17号开始出现360蜘蛛。但在360搜索中却出现8月9号的快照,那我9号的快照你从哪来的?”
搜狗的报告显示,360搜索结果第一条比百度的相似度高达38%,远高于正常比例;此外明眼人都能看出来360搜索的UI与百度极为相似。如果一个搜索引擎,360搜索结果大量套用其他搜索、他的页面设计大量套用其他搜索,那它还称得上“独立搜索引擎”吗?
二问:无视robots协议,谁是不正当竞争?
按照国际惯例,搜索引擎会自觉按照每个网站的“robots协议”给予自己的权限来进行抓取,包括百度、谷歌、雅虎在内的搜索引擎都会遵循这一协议。
然而,据了解,百度网站的Robots协议中并未授权360搜索爬虫抓取,但是360搜索却无视这种设置,擅自实施了抓取行为。很多内容源网站禁止搜索引擎抓取的网页中大多涉及存放在服务器上的后台数据库、用户稳私、密码等信息。这意味着,360无视内容源网站robots.txt协议中的设定,将导致存放在服务器上的不该被搜索到的隐私信息被搜索到,甚至直接在搜索结果中展示出来。
对这一行为,360简单将其解释为“百度禁止360爬虫,是滥用Robots协议的恶意竞争行为”,实在有些避重就轻。
就像资深互联网观察家洪波所说,“robots协议赋予网站禁止任何搜索爬虫的权利,这跟不正当竞争毫无关系,做搜索就要遵守搜索行业公认的游戏规则,无视规则,肆意违反规则才是真正的不正当竞争。”
知名意见领袖炳叔在他的一篇博文中发问,“企业,特别是掌握大数据的搜索企业,居然连这样一种简单的robot道德契约都不愿意遵守?那谁还敢、谁还愿意,尝试另一个国家开发的全球化应用呢?”
这些问题,周总该如何解答?
三问:窃取用户隐私的搜索,是为了谁的体验?
周鸿祎一直不断强调360搜索要给用户更好的搜索体验。但他其实回避了一个全国网友更关心的问题,就是360是不是窃取用户隐私?窃取哪些隐私?
8月31日,百度工程师赵明华发布了一条名为【鬼节捉鬼】的微博。该微博指出,百度工程师通过一个设饵钓鱼的实验,让360浏览器抓取用户隐私的秘密暴露无遗。百度工程师制作了一个保存在服务器个人文件夹下,没有任何外链的简单网页,由于搜索引擎爬虫只能通过链接爬行网页,因此这个网页是完全封闭的。随后,百度工程师用360浏览器打开了这个网页。
然而在专访文章中,周鸿祎对五个关系到360搜索正当性的重要问题,却采取了混淆视听或直接回避的态度。本文希望再次提出这些问题与周鸿祎商榷,并希望周总能够正面回答。
一、360搜索是独立的搜索引擎?
周鸿祎专访时强调,360搜索和百度半点关系都没有,完全是创新的产物。此前,在360搜索的官方声明中,更声称“360搜索引擎是七年磨一剑,360搜索是用自有先进搜索技术打造的独立搜索引擎”。
要做独立的搜索引擎,最基础的功夫就是要让爬虫去爬全网数据。而360的爬虫是什么时候才出现的?2012年8月27日,360搜索官方微博才正式推出“360蜘蛛”,并提示站长设置允许抓取的robots.txt协议。360蜘蛛在短短半个月内索引的网页量,就足够支撑360搜索满足用户需求,成为“第二大搜索引擎”吗?360的蜘蛛难道都是传说中的“蜘蛛侠”?
可能的解释,要么是360蜘蛛以伪装的身份默默爬了七年网页,从没知会过站长;要么就是从其他搜索引擎那里“拿”了一些数据。
笔者以“site”命令把搜索范围限定在特定站点中时,还发现许多网站根本没有被360搜索蜘蛛爬过,包括新浪网、58同城等热门大站。然而搜索相关关键词时,360搜索却能展示来自这些网站的搜索结果快照。
有站长直接爆料称:“我在服务器上查看蜘蛛日志,发现了很大的问题。我站在7月份上线到8月16号360spider从来没有爬行,到8月17号开始出现360蜘蛛。但在360搜索中却出现8月9号的快照,那我9号的快照你从哪来的?”
搜狗的报告显示,360搜索结果第一条比百度的相似度高达38%,远高于正常比例;此外明眼人都能看出来360搜索的UI与百度极为相似。如果一个搜索引擎,360搜索结果大量套用其他搜索、他的页面设计大量套用其他搜索,那它还称得上“独立搜索引擎”吗?
二问:无视robots协议,谁是不正当竞争?
按照国际惯例,搜索引擎会自觉按照每个网站的“robots协议”给予自己的权限来进行抓取,包括百度、谷歌、雅虎在内的搜索引擎都会遵循这一协议。
然而,据了解,百度网站的Robots协议中并未授权360搜索爬虫抓取,但是360搜索却无视这种设置,擅自实施了抓取行为。很多内容源网站禁止搜索引擎抓取的网页中大多涉及存放在服务器上的后台数据库、用户稳私、密码等信息。这意味着,360无视内容源网站robots.txt协议中的设定,将导致存放在服务器上的不该被搜索到的隐私信息被搜索到,甚至直接在搜索结果中展示出来。
对这一行为,360简单将其解释为“百度禁止360爬虫,是滥用Robots协议的恶意竞争行为”,实在有些避重就轻。
就像资深互联网观察家洪波所说,“robots协议赋予网站禁止任何搜索爬虫的权利,这跟不正当竞争毫无关系,做搜索就要遵守搜索行业公认的游戏规则,无视规则,肆意违反规则才是真正的不正当竞争。”
知名意见领袖炳叔在他的一篇博文中发问,“企业,特别是掌握大数据的搜索企业,居然连这样一种简单的robot道德契约都不愿意遵守?那谁还敢、谁还愿意,尝试另一个国家开发的全球化应用呢?”
这些问题,周总该如何解答?
三问:窃取用户隐私的搜索,是为了谁的体验?
周鸿祎一直不断强调360搜索要给用户更好的搜索体验。但他其实回避了一个全国网友更关心的问题,就是360是不是窃取用户隐私?窃取哪些隐私?
8月31日,百度工程师赵明华发布了一条名为【鬼节捉鬼】的微博。该微博指出,百度工程师通过一个设饵钓鱼的实验,让360浏览器抓取用户隐私的秘密暴露无遗。百度工程师制作了一个保存在服务器个人文件夹下,没有任何外链的简单网页,由于搜索引擎爬虫只能通过链接爬行网页,因此这个网页是完全封闭的。随后,百度工程师用360浏览器打开了这个网页。