在中文信息检索领域中,缺乏大规模测试数据集是制约我们研究和技术
发展的重要因素。参考TREC多年的成功经验,本届SEWM2004会议开始包
含一个中文Web检索竞赛项目。我们希望为这个领域的研究人员,用户,企
业提供一个交流的机会,希望在国内外各个研究小组的共同参与下建立并完
善以中文为主的Web测试集CWT100g(Chinese Web Test collection with 100
GB web pages),一起推动中文Web信息检索技术的发展。
依据TREC在Web Search评测方面多年的成功经验,主题提取(topic
distillation)和导航搜索(homepage/named page search)能够较好反映Web
Search中用户搜索需求,是现在评估Web Search系统的主要内容[1]。
本届SEWM-2004中文Web检索竞赛基本参照TREC-2003 Web Track的
模式[2][3]。包含两个具体目标:
1) 研究有效的主题提取方法:针对用户给定的广泛查询,找到一组最佳
的主页。
2) 研究有效的导航搜索方法(包括主页和指定页面查询):找到用户需要的
特定页面。
2 文档集
文档集,根据天网搜索引擎截止2004年2月1日发现的中国范围内提供
Web服务的1,000,614个主机,从中采样17,683个站点,在2004年6月搜集
获得5,712,710个网页,包括网页内容和Web服务器返回的信息,容量为
90GB。其中每个网页对应的服务器返回信息中的MIME类型都是"text/html"或
者"text/plain"。
文档集数据格式参见[4]。
3 主题提取任务
主题提取目的是对于一个特定主题发现一组关键资源。在今年的任务中我
们将只注重以站点作为资源的查询。要求是在前十个结果中寻找尽可能多的不
同站点(用它们的网站首页面表示)。
对于主题'linux',CWT100G中的下面站点可能被认为是关键资源:
http://www.oldlinux.org/linux org
http://www.mhdn.net/os/29/明辉开发者网络 linux区
http://www.redflag-linux.com/红旗Linux
被判断为是一个关键资源,返回页面应该是一个站点的好的首页面。判断
是否一个好的首页面,考查三个方面:
1)是否大部分切合主题;
2)提供主题的可靠的信息;
3)不是一个更大的切合主题站点的一部分。
对于'linux'这一主题,页面'www.mhdn.net' 不符合第一个条件,而页面
'http://www.redflag-linux.com/chanpin/Desktop/index.html'不符合第三个条件。
提供主题格式和TREC一致,实例为:
<top>
<num> Number:
<title> linux
<desc> Description:
找到和linux主题相关的站点.
</top>
只有<title>可以用作系统的查询条件。
将根据在前十个结果(通常在的Web搜索系统返回的第一个页面)中有几
个正确的答案来判断系统的性能。使用前10个结果的精确率和前10个结果的
平均精确率(P@10)来评判。
延伸阅读
文章来源于领测软件测试网 https://www.ltesting.net/