• 软件测试技术
  • 软件测试博客
  • 软件测试视频
  • 开源软件测试技术
  • 软件测试论坛
  • 软件测试沙龙
  • 软件测试资料下载
  • 软件测试杂志
  • 软件测试人才招聘
    暂时没有公告

字号: | 推荐给好友 上一篇 | 下一篇

TRS助新华社构建多媒体数据库搜索引擎

发布: 2007-6-09 19:33 | 作者: seanhe | 来源: | 查看: 28次 | 进入软件测试论坛讨论

领测软件测试网

引言:

  

组织机构(以下统称企业)信息化建设浪潮,催生了大量的内部信息资源。据统计,企业数据每年以200%的速度增长,其中80%的数据以文件、邮

件、图片等非结构化数据形式存放在企业内计算机系统中的各个角落,而这些数据总量远远超过了互联网信息的总量。整合企业信息资源,构建企业搜索引擎,为组织内外部用户提供检索和个性化信息服务,已经成为企业信息化的一大热点。

 

“新华社多媒体数据库搜索引擎”整合新华社海量多媒体数据,为内部工作人员和外部会员等用户提供个性化综合信息检索、发布和推送订阅服务。

需求分析

  

新华社拥有国内新闻编辑部、对外新闻编辑部、国际新闻编辑部、新闻摄影编辑部等多个编辑部和分社,每个编辑部都有一套独立的新闻采编系统,由不同系统负责不同种类新闻信息的存储和管理工作,从而造成了不同部门的信息资源壁垒,形成了信息孤岛,影响信息的共享和有效利用,迫切需要整合这些有价值的信息资源,建立开放的、共享的信息资源搜索平台,为广大编辑、记者等的采编工作提供服务。

  

同时,新华社作为有着70多年历史的国家通讯社,是中国最大、最权威的新闻信息采集和发布中心,其新闻信息具有权威性、原创性、前瞻性、实用性、及时性等特点,党政机关、群众团体、科研教育机构、大中企业等都是新华社的用户,所以该信息资源搜索平台还应考虑外部用户的不同需求,提供不同层次,具有不同针对性的信息服务。

  

概括起来新华社多媒体数据库搜索引擎的需求有以下几个方面的特点:

信息量大,需要对海量信息进行搜索、存储和智能管理

  

文字信息,从1948年以来新华社播发的所有中文电讯稿3000余万篇,而且每天新增全天24小时实时播发的新华社各路电讯稿、各种经济信息专线产品,以及新华社社办报刊和精选稿件等10000多篇。

图片信息,内容涉及国内外政治、经济、外交、文化、体育、教育及风土人情的图片信息200多万张,每日增加1600多张。

图表信息,及国内外多个领域,集新闻性与艺术性于一体的图表近万张,每天递增最新的国内国际图表新闻10多张。

音、视频信息,国内外时政新闻、财经新闻、体育新闻、娱乐新闻等音、视频近万小时。

信息形式多,需要提供统一、跨媒体检索

  

不但包括文字、图片、图表和视频等多种形式的信息资源,而且涵盖了中文、英文、法文、西文、俄文、阿拉伯文、葡文等10多种语言信息资源。

服务人群多,需提供个性化服务

  

新华社多媒体数据库搜索引擎不仅面向内部用户,还面向许多类型的的外部用户,例如:为媒体用户提供大量丰富、前沿、精彩的各类新闻,作为编写稿件的权威参考;为党政机关提供不同针对性的政府专供信息,为各级政府及时把握中国政治、经济的脉搏,正确决策提供参考;为大企业、经济决策层、经济管理部门、金融机构管理层等提供宏观经济、资本市场、货币市场的重要参考信息。

解决方案

  

通过仔细考虑和对比,新华社采用了TRS的系列产品搭建了多媒体数据搜索引擎,整合了各个系统和互联网上有价值的新闻资源,实现了海量信息的分布存储和管理,实现了跨媒体统一检索和个性化服务功能。

信息资源的采集、整合、管理

  

新华社多媒体数据库系统通过TRS Gateway(关系数据库网关)将原有各个部门系统中的信息采集到TRS Database Server(全文数据库服务器)中进行统一分类存储,采集不会影响到原有系统的业务逻辑的正常运行,同时保证了信息同步采集的实效性。

对于互联网上有价值的新闻信息,则通过TRS InfoRadar(网络信息雷达)定制网站进行采集,进入TRS Database Server中进行统一分类存储,同时采集工具采用TRS先进的文本挖掘技术实现了自动过滤、自动排重、自动文摘和分类等功能,大大提高了信息的加工效率。

为了保证海量信息的存储,保证海量信息的检索的效率、稳定性和可靠性。系统采用TRS Database Server分布式集群结构作为系统的存储和检索支持。如下图:

TRS DataBase Server分布式集群存储结构图

  

上图中,“TRS数据库服务器组”内的数据库服务器之间采用负载均衡模式,由集群服务器统一调度,一个服务请求只需发往其中的一个数据库服务器。同时,“TRS数据库服务器组”之间则采用分布式检索模式,一个检索请求根据其所包含的目标对象的分布情况,发往部分或全部的数据库服务器组。

  

通过TRS集群服务器可以实现以下目标:

通过增加“TRS数据库服务器组”来解决海量数据的分布式存储问题,实现了海量数据的无限扩展。

在多用户并发检索的条件下,保证海量信息的检索的效率。

通过实现信息资源的冗余存储,提供高可靠性的检索服务。

通过实现不同的索引策略,满足更加个性化的检索需求。

海量信息个性化服务和多种组合检索

  

新华社多媒体数据库在TRS CDS(内容分发服务器)的基础上构建了多媒体数据库的发布服务,实现了统一检索和个性化服务,具体包括:

  

多种检索方式有机组合,使用户获得完美的检索体验。在分类检索、全文检索及高级检索等基础上,还提供检索词提示、拼音提示等智能检索方式。并依靠TRS Database Server分布式集群结构的支持获得满意的检索速度。

  

提供丰富的个性化定制功能,用户可以根据个人需要,分别对内容分类、内容表现方式等进行个人定制。同时提供个人检索收藏功能,用户可以将自己习惯使用的检索条件保存起来,以后可以直接使用,不需要再进行任何的输入,方便快速的进行内容的检索。在Web内容分发的基础上,提供了邮件订阅的服务方式,为用户提供了主动获取信息的方式。

  

大客户信息推送,实现信息推送服务器及客户端,为大型企业、政府部门和高校等集团和专供用户提供个性化的特供产品服务。信息推送服务器可以按分类、时间等条件,自动生成数据库数据的同步数据文件,并通过卫星、专线等方式将这些数据同步文件发送到各个推送客户端。

客户评价

  

通过TRS系列产品搭建的新华社多媒体数据库搜索引擎,提高信息资源的使用效率,带来了良好的社会效益和经济效益,客户是如此评价该系统的:“新华社是我国国家通讯社,是全球新闻信息总汇,TRS在新华社有广泛应用,已经成为新华社业务的核心支撑技术之一,仅一个新华社多媒体数据库,TRS管理的数据量已经超过3500万记录,TRS Database Server的集群功能是率先在新华社得到使用的,同时TRS良好的多语言支持能力,是一个国际化的企业搜索引擎。新华社的业务特点是数据在不断的增加和变化,普通互联网搜索引擎无法处理这类事务型需求,TRS Database Server能够满足这方面的需求。”

 

延伸阅读

文章来源于领测软件测试网 https://www.ltesting.net/


关于领测软件测试网 | 领测软件测试网合作伙伴 | 广告服务 | 投稿指南 | 联系我们 | 网站地图 | 友情链接
版权所有(C) 2003-2010 TestAge(领测软件测试网)|领测国际科技(北京)有限公司|软件测试工程师培训网 All Rights Reserved
北京市海淀区中关村南大街9号北京理工科技大厦1402室 京ICP备10010545号-5
技术支持和业务联系:info@testage.com.cn 电话:010-51297073

软件测试 | 领测国际ISTQBISTQB官网TMMiTMMi认证国际软件测试工程师认证领测软件测试网