北大天网从2006年4月12日开始免费提供大规模中文Web测试集CWT200g (Chinese Web Test collection with 200 GB web pages)。搜索引擎是上网用户必不可少的检索工具。为探求其采用何种有效的技术支持用户查询,需要在大规模测试集的验证。北大天网从2004年6月 16日开始提供CWT100g。在中文信息检索领域,CWT100g得到了广泛的应用,截至2006年3月申请该测试集的研究机构已经超过30家,连续两年(2004年和2005年)被SEWM中文Web信息检索评测和863信息检索评测指定为测试集。此次,再接再厉,适应Web的发展,北大天网推出 CWT200g测试集。
CWT200g是北京大学网络实验室天网课题组的最新成果。北京大学网络实验室自1997年开始从事搜索引擎方面的研究与系统开发,技术积累深厚,综合实力和学术影响在国内一直处于领先地位。研发的“天网”搜索引擎系统是全国最有影响的出自校园的搜索引擎,从1997年10月开始一直运行至今。“天网”在增量搜索技术、快速检索技术,海量信息存储技术等方面都具有较强的优势,她的不断发展培育了一批批在海量网络文本信息处理方面有实战经验的学生,受到中外IT企业的普遍欢迎。在继续深入研究搜索引擎技术的同时,该研究组目前正在努力发展由“海量网络信息,计算机技术,社会科学方法”三方面交融的学术前沿。
CWT200g的采样过程是:首先根据天网搜索引擎在2005年11月份搜集网页所发现的中国范围内提供Web服务的627,036个主机,通过消除重复网站、去除垃圾网站后得到88,303站点,对这些站点进行网页搜集,每个网站的搜集深度为3,单个网站搜集的数据量不限,得到初始数据集。然后进行网页的消重处理,得到不重复的网页集合。针对该网页集合进行采样,得到容量为197GB的CWT200g的测试集。它包括29,100个站点, 37,482,913个网页。
(责任编辑:城尘)