搜索技术和产业动态分析

发表于:2011-10-21来源:中国软件评测中心作者:周波点击数: 标签:
引言 随着Internet的大规模普及,信息量呈爆炸性速度迅速增长。当一年的信息储存量大于人类历史上所有信息储存量300倍的时候,人们发现,在浩瀚的互联网海洋中找到目标信息的难度已大大增加。据权威机构统计,网上约有数十亿的网页,甚至有些专家宣称网页总

  引言

  随着Internet的大规模普及,信息量呈爆炸性速度迅速增长。当一年的信息储存量大于人类历史上所有信息储存量300倍的时候,人们发现,在浩瀚的互联网海洋中找到目标信息的难度已大大增加。据权威机构统计,网上约有数十亿的网页,甚至有些专家宣称网页总数已达5500亿,而且仍不断增长。如何在庞大互联网上获取有价值的信息已成为人们日益关注的问题,搜索引擎技术的发展恰好解决了这一难题,它以一定的策略在互联网或数据源中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。

  搜索引擎技术涉及到信息检索、人工智能、计算机网络、分布式处理、数据挖掘、自然语言处理等多领域理论和技术,所以具有很大的综合性和挑战性。而且,由于搜索引擎拥有大量用户,具有很好的商业价值,所以引起了全球科研机构和IT产业界的高度重视,促进了搜索引擎技术和产业的快速发展。

  当前,随着搜索引擎用户规模和应用领域的不断增大,搜索引擎技术的发展趋势是智能化、跨媒体、实时化、垂直、移动和个性化发展。

  智能化搜索

  根据中国互联网络信息中心(CNNIC)《2010-2011年中国搜索引擎用户行为研究报告》的调查显示,截止2010年底,中国搜索引擎用户规模达到4.5亿人,年增长率达48.6%。与此同时,搜索引擎逐步向低学历网民群体渗透。这意味着用户需求的输入内容越来越多样化(不仅仅是关键字方式,也可以是任意的自然语言陈述),这对搜索引擎的智能人机交互、语义分析、行为分析、海量计算等输入智能化处理性能都提出了更高要求。例如,最近百度提出的“框计算”,就是利用搜索的云计算平台,为用户提供基于互联网的一站式搜索服务,用户只要在框中输入服务需求,系统就能明确识别这种需求,并将该需求分配给最优的应用或内容资源提供商处理,最终返回给用户相匹配的结果。

  跨媒体搜索

  传统的文本、图像、音频和视频分析与检索技术都是相互独立的,缺乏面向多种媒体的跨媒体搜索技术。随着新的多媒体搜索领域不断出现,搜索结果呈现方式也将以多媒体的形式出现,除了传统的文本搜索,还包括以播客(podcast)为主要搜索内容的播客搜索、以视客(Videoblog)为主要搜索内容的视客搜索,以及面向IPTV业务的IPTV搜索等。这些多媒体信息应用的发展,要求信息搜索“必须是跨媒体的,也就是说用户通过统一的界面和单一的提问,就能够获得以各种媒体形式存在的语义相似的结果。”为了提供支持多种检索方式和多模态用户信息需求的跨媒体检索,跨媒体搜索技术研究涉及海量多媒体数据的智能处理、多通道信息的融合和集成、快速准确的跨媒体索引等关键问题研究和应用。

  实时搜索

  目前,很多人都意识到了实时搜索的重要性。即使是全球最大的搜索引擎提供商google也意识到其在满足实时社交搜索方面已经落伍。业内人士最近就实时搜索是否是网络的未来方向进行了探讨,认为“网络环境将越来越变得实时化;只要网络技术存在,实时将持续发展,同时,利用过滤信息流的办法,以保证信息不会过剩”。国内典型的实时搜索的代表就是有道搜索引擎,它是2010年4月网易针对微博信息推出的国内第一家实时搜索服务。但是,尽管实时搜索给人带来即时快速信息,同时,它也很容易充斥垃圾信息。所以,实时搜索技术与产品还要重点考虑实时搜索的信息过滤,以保证实时搜索的结果能在质量上有待提高,使得检索出来的结果能更符合用户需求。

  垂直搜索

  垂直搜索引擎针对某一个行业或组织,提供满足行业专业需求或者业务需求的专业搜索引擎,是搜索引擎的细分和延伸,是对某类网页资源和结构化资源的深度整合,可为用户提供符合专业操作行为的信息服务。相比通用搜索引擎的海量信息无序化,其主要特征在于:面向特定领域或对象,可借助行业知识进行深度挖掘;信息来源相对集中,避免全网搜索;信息处理量足够大;可将非结构化的信息结构化。当前国内的垂直搜索引擎处于稳步发展阶段,市场占有率为50%以上,技术与国际处于同一起跑线上,例如各种购物搜索、房产搜索、人才搜索、地图搜索等都属于垂直搜索的范畴。此外,随着搜索情境多样化,比方说在车上进行搜索行为,或是移动设备的移动式搜索,精准的垂直搜索有了更广泛的应用空间。垂直搜索的发展趋势在于信息分类的细化以及深度挖掘,通过对元数据信息进入深度加工,为用户提供网页搜索引擎无法做到的专业性、功能性及关联性、并加入用户信息管理及信息发布互动功能,以更好满足用户对信息获取的专业性、准确性、功能性、个性化需求。

  移动搜索

  移动搜索是指以移动设备为终端,通过SMS、WAP、IVR等多种特定搜索方式实现高速、准确的获取信息资源的搜索行为。随着3G技术和移动互联网的快速发展,移动上网将逐渐独立成长为和桌上电脑上网并行的网络行为,使移动搜索用户成为搜索引擎的重要的的客户群体。艾瑞咨询eMarketer最新研究数据表明,在2011年,全球移动搜索用户数将达到9.0亿,而全球移动搜索市场规模也将达到23.6亿美元。而国内,在中国移动及移动服务提供商大力扶持下的移动增值业务市场近来也出现高速增长态势,移动互联网的发展趋势使移动搜索成为未来的发展方向之一。为了适应移动终端屏幕小、网络接入速度相对慢等特点,移动搜索技术更注重使用的简约化和查询实效性,所以便利性、精准性、时效性以及提供个性化服务成为了移动搜索的重要特征,移动搜索引擎的关键技术涉及海量数据的采集、分析与管理以及用户请求的智能应答。

  个性化搜索

  个性化搜索是搜索引擎根据用户搜索的历史记录,包括用户所搜索的关键词,在搜索结果中的点击情况,在各个网站的访问情况,书签情况等,然后对这些信息进行分析,在用户搜索新的关键词时,能返回更有针对性的搜索结果,从而提高用户体验。当前个人化本地搜索更多的应用在在搜索本地新闻。个性化搜索的难点在于搜索引擎怎样才能准确猜测用户在特定时间的搜索目的?人的需求是不断变更的,依据历史记录完全可能得出相差十万八千里的猜测。

  综看当前的搜索引擎技术和搜索产业的快速发展趋势,搜索引擎测试技术测试服务的发展将面临更多的挑战。当前,在搜索引擎领域的测试主要有TREC基准测试,跨语言检索评测会议NTCIR、CLEF,机器翻译评测TC-STAR等,它们都是利用统一的TB级海量测试集测试各种搜索技术的搜索性能指标,例如召回率(Recall)、精度(Pricision)、平均准确率(Mean Average Precision,即MAP)等。而对于各种搜索技术造成的系统资源利用率的性能测试还没有统一的评测规范和标准,这些指标也是目前进行搜索技术研究的科研机构以及搜索服务提供商等非常关注的指标,也是保证搜索引擎产品质量、搜索技术测试领域研究和实施的重要方向。

原文转自:http://www.ltesting.net