继“3Q大战”、“小三大战”之后,一向好战的奇虎360终于再次出击搜索引擎了(不了解的可以查看《360再次叫板百度,推出360综合搜索》一文),继本月中旬推出360搜索后,本周已将360网址导航默认的谷歌搜索改为360搜索。与以往不同的是这次周鸿祎颇为低调,但仍依然引起了百度、搜狗等竞争对手的注意。究其原因也就的360在短短几天时间就获得了超过10%的搜索份额,这让做了好几年的搜狗和搜搜甚至谷歌都无不汗颜。先不管360搜索是否能持续的高走,但至少也反应了广大搜索用户的热烈需求,毕竟在国内搜索引擎市场百度占据的市场份额实在太多,以至于出现了垄断局面,所以大家都迫切的希望能够有一家搜索引擎站出来与之抗衡,于是360搜索暂时成为了这个神话。业内认为,360未来少不了与李彦宏执掌的百度大干一仗,360搜索能否成为了中国第二大的搜索引擎,然后改写搜索市场格局呢?

360出击
导航网站搜索变自主搜索
细心的网民发现,本周二起,在360网址导航默认的搜索框内输入关键词后,跳出的搜索不再是谷歌搜索框,而是360自主搜索引擎。在一些版本的360浏览器搜索框中,360搜索也被设置为默认搜索引擎。
据了解,360于上周四低调推出搜索工具。但很多网友都发现,360搜索除了在第一次跳出搜索框的网页搜索功能中,使用其自主搜索引擎外,第二次跳出的搜索结果则聚合了很多其他公司的产品。
已为中小网站带来高流量
360搜索为中小网站带来的高流量,已引起业内高度关注。
科技资讯网站“站长之家”和手机交流社区“安卓论坛”公布的数据也显示,360搜索已经超过搜狗,成为仅次于百度的第二大流量来源。具体可查看《360搜索能否成为了中国第二大的搜索引擎》一文。
金山网络CEO傅盛甚至放言,360搜索迅速拿下近10%搜索市场份额,超越搜狗成为国内第二大搜索引擎。前日,在财报发布后接受投资者提问时,周鸿祎介绍,从网站站长的反馈来看,360搜索量在对方网站访问量的比例已经非常高了,“超出了所有人的预期”。
对于360搜索最近火爆的情况,确实令360眼前一亮呀,不过这是否是最终的结果呢?我们还不得而知,不过最近刚好看到了这篇评论360搜索的文章,看过后觉得观点鲜明,强烈的指出了360搜索在技术上的不足以及可能的发展方向,特分享至此。
一、周鸿祎的搜索情结
军事上可以从一个统帅的性格,来判断他可能的指挥方式。同样,从一个企业的产品、企业运作,我们可以看到一个企业领导人的性格,从而从这个性格又可以进一步推测他下一步可能的行动。
360最近推出了搜索,这个徽剑我在07年的时候就说过,我说周鸿祎早晚还会做搜索,因为他不是那种愿意做最原始的信息贡献的性格,而是喜欢整合资源,或者说投机取巧的人。无论是早期的3721,还是后来奇虎聚合等,都可以看到这点。
周鸿祎其实是有很强的搜索情节的,因为他的第一桶金就来自一款搜索产品—3721,尽管后来这款产品被人评价为流氓软件,但是不可否认一点,那就是在中国互联网普及的阶段,对于大批连com和net是啥都分不清楚的人来说,3721让他们使用熟悉的中文就可以在网上畅游了。
当初3721是这么宣传的:“3721公司提供的中文上网服务――3721“网络实名”,是第三代中文上网方式,用户无需记忆复杂的域名,直接在浏览器地址栏中输入中文名字,外贸网络推广就能直达企业网站或者找到企业、产品信息。”但是在网络上3721被称为是最大的流氓软件之一,现已停止运营。
“3721网络实名插件由奇虎公司现任董事长周鸿祎一手创办,它通过地址栏实现中文搜索。2003年11月,雅虎1.2亿美元收购3721公司,该软件更名雅虎助手。2005年10月,阿里巴巴宣布完成对雅虎中国全部资产收购,3721业务随之并入马云手中。2006年,互联网业内掀起“反恶意软件”的热潮,周鸿祎率领360安全卫士成为反恶意软件先锋,曾经由他一手创办的3721软件(雅虎助手)则成了他“围剿”的重点目标之一。当年9月,阿里巴巴宣布投资1亿元继续开发与推广雅虎助手,但随后并未看到有实质的市场举动。”这是网上对3721的一段描述。
3721最大的争议,就在于他的传播方式,还有安装后排斥竞争对手、独占用户电脑的网络查询接口的技术手段。3721虽然给那些菜鸟网民提供了极大的方便,但是对于那些掌握一定技术能力的熟练网民,还有就是被3721所干扰的竞争对手,都会采取各种手段针对3721。从而使得3721在几年后变得越来越被更多的人所排斥。
当年的3721一出来,采用的是利用WINDOWS98的系统漏洞,用病毒的方法进行传播,在短期内就积累了海量的用户。有人曾经问过我“你觉得中国最大的黑客是谁?”我当时回答“我也许不好说中国技术最牛的黑客是谁,但是我可以肯定周鸿祎是商业上最成功、规模最大的黑客。别的黑客只能赚点小钱,他可以通过病毒等黑客手段赚到以亿来计算的财富”。
当然,时过境迁,我们今天再来评价3721已经有些过时,下面就让我们来看看360的搜索吧。
二、搜索的技术门槛
最原始的搜索,就是建立在数据库基础上的关键字匹配,后来进一步延伸到所谓模糊查询、统计分析、知识发现等系列技术的应用。因为搜索,可以让网民从海量的信息中找到他需要的资源,减少了他挨个去查找的时间,提高了他的使用效率,从而使得今天的网民,在上网的时候,已经无法离开搜索。
很多人把搜索看的神乎其神,其实根本没那么复杂。只要一个会做网页的技术人员、一个懂得存储应用开发的技术人员、一个对C或者C++开发TCP/IP应用比较熟悉的技术人员、一个对索引检索开发熟悉的技术人员,就可以组成一个搜索引擎开发团队。
1、会做网页的,去做跟用户对接的那部分。
2、懂得存储应用开发的技术人员,负责搭建存储系统,一个最简单的方式,就是搭建一批服务器,每个服务器分门别类,比如A组服务器负责存储新闻,B组服务器负责存储娱乐等。再细分下去,A1服务器负责存储人民网的,A2服务器负责存储新华网的,B1服务器负责存储李宇春的信息、B2服务器负责存储周杰伦的信息等等,如此类推,
3、对C或者C++开发TCP/IP应用比较熟悉的技术人员,就可以开发一个所谓“网络蜘蛛”的爬虫程序,其实说白了就是一个“离线下载”工具,下载下来后,海外网站推广对页面里面的链接进行分析,继续不停找新的来源。
4、对索引检索开发熟悉的技术人员,负责对抓下来的文本做进一步分析,利用单词和短语库,对文本进行分析,按照存储服务器的配置,把不同的信息,存储到对应的服务器里面。同时他还需要和1合作,对于网页上用户提出的查询要求,他要做出文本分析,然后导引到指定服务器上调出相应结果。
以上就是一个搜索引擎的技术的大致体系,当然,实际中的搜索引擎,远比这个复杂。区别就好比钻天猴的烟花和火箭的那么大。但是基本的架构原理还不会变化的。其实我们都知道,很多时候,理论很好明白,但是实际做起来会在细节上面临大量问题。那么这里有哪几个地方会比较难呢?
依照我对搜索引擎技术差不多十来年的关注,我总结出搜索引擎技术的两大门槛:
第一个门槛:海量的数据搜集和存储
第二个门槛:搜索结果的优化
下面分别表述:
第一个门槛:海量的数据搜集和存储,因为搜索引擎需要查询大量的网络数据,并且把这些数据抓回爬虫服务器,在做进一步的处理,最后存储在自己的存储系统里面,对于大多数搜索引擎的来说,更多是通用查询,也就是“乱查一气”,你不知道上亿网民会通过你的网页接口,提交什么样的查询关键词。所以你只能尽可能多的搜集各种信息,以备不测。
这这个海量数据的搜集就需要大量的爬虫服务器、还有大量的时候去处理。问题在于不光是搜集过来,这边还得储存,这就需要大量的存储系统,说白了就是需要海量的硬盘。你想想,你要把差不多整个互联网上的各种网站的数据都要抓一部分,甚至全部。这数据量多大可想而知。
第二个门槛:搜索结果的优化,这个就涉及到好几个方面,一是存储系统的数据检索需要做到快捷方便,需要定期对搜索行为做出分析,对于不同热度的查询数据,用不同优先权的缓存服务器来处理。二是对网民查询内容的优化,很多时候,网民在查询时,并不能很好的表达他的意思,所以如何去理解,给出尽可能近似的结果,是非常关键的事情,打个比方,用户搜索张柏芝,也许是要找谢霆锋相关的,也可能是要找跟陈冠希相关的。三是存储时要对网页进行语义分析,如何准确识别一个网页的主要内容,还有这个网页在网络上的价值,比如是不是第一个发布的?是不是有跟类似网页区别的?等等,这些都需要做很复杂的工作。
目前而言,搜索引擎更多集中在文本或者说字符搜索上面,诸如图片识别和语音识别、视频识别,目前都在研究,也取得了一些进展,但是很遗憾,因为识别的效率、成本等原因,短期还无法在非专业领域有多大的应用。所以有关这方面的,这里就不一一赘述。
三、360搜索vs百度资讯话题360搜索引擎是否会再次重蹈3721的覆辙呢?。
