• 软件测试技术
  • 软件测试博客
  • 软件测试视频
  • 开源软件测试技术
  • 软件测试论坛
  • 软件测试沙龙
  • 软件测试资料下载
  • 软件测试杂志
  • 软件测试人才招聘
    暂时没有公告

字号: | 推荐给好友 上一篇 | 下一篇

清华同方互联网专题搜索引擎解决方案

发布: 2007-6-09 20:13 | 作者: seanhe | 来源: | 查看: 43次 | 进入软件测试论坛讨论

领测软件测试网

产品介绍

    互联网上的资源浩如烟海,良莠不齐,给我们提供了丰富的信息,同时也增加了我们获取准确信息的难度。清华同方互联网专题搜索引擎针

对这个问题,利用先进的技术,快速采集海量信息,经过自然语义分析过滤,可及时、准确地从互联网上采集对我们有用的信息,并存储在本地。

     本系统具有优异的性能,强大的功能和易用的人机界面,是企业、政府、高校等单位开发利用互联网信息资源的有效工具。已经广泛应用于各个单位的互联网专题特色库的采集与发布,广泛应用于新闻出版单位的网络出版监管,广泛应用于企业竞争情报的采集与利用。

行业应用

    企业可通过该系统及时获取最新的行业信息、市场动态和竞争情报,在第一时间内发现潜在的威胁和市场机遇,为企业经营决策提供支持,提高企业的竞争力和灵敏度。

     政府可通过该系统及时发现互联网上的新闻热点和敏感信息,准确把握社会舆论动向,做出正确的决策。

     高校和研究院所等学术机构可通过该系统对学术类的网站、论坛、数据库等信息源进行定向采集,及时获取该学术领域内的最新研究成果和研究热点。

系统结构

清华同方互联网专题搜索引擎涉及信息采集、智能过滤、动态发布、任务调度四个模块。

  • 信息采集 网络蜘蛛是系统的基础部件,负责从互联网抓取数据,网络蜘蛛采用多线程技术设计,可以同时抓取多个网站,并可以根据需要进行群集。
  • 智能过滤 智能代理是系统的核心模块,它集成多种智能信息处理算法,可基于先进的语义规则技术进行浅层语义分析,对所有抓取的网络数据进行全面的分析过滤,准确识别出所需要的信息。智能代理自动获取操作对象知识以及用户偏好,可及时自我学习,完善知识体系,提高智能化程度。
  • 动态发布 智能代理分析过滤出来的信息,可实时发布在数据库中,进行实时排重,可供用户进行检索、浏览和下载。
  • 任务调度 应用服务器是整个系统的调度中心,主要起到任务分配、子系统间消息转发及各子系统调度作用。各个子系统连接到应用服务器,由应用服务器统一管理和调度,各子系统可随时连接,也可随时断开,而不影响整个系统的运行,具有很强的扩展性。

    功能特点

    先进的智能代理

  • 支持自动分类;
  • 自定义分类体系,为用户提供了多种方式定制感兴趣的主题;
  • 拥有自学习功能,可以根据用户反馈信息,及时完善知识体系,提高智能化程度。

    强大的信息采集能力

  • 多线程并行采集;
  • 实时动态监控特定目标;
  • 可以灵活定制采集的策略;
  • 可以大范围采集,也可以针对特定网站和频道进行采集;
  • 支持RSS协议,可实现RSS资源的采集;
  • 系统可以采集多种文档信息,包括txt、doc、rtf、xml、ppt、pdf、chm、caj等。

    强大的发布系统

  • 支持动态摘要和敏感摘要,关键词标红;
  • 提供多种发布风格;
  • 提供网页快照和相关网页自动关联。

    个性化定制

        支持用户自定义个性化分词词典,只需要简单的输入自定义的各种专业词汇,系统便会按照用户的定制精确检索,大幅提高检索效率和查全查准率。

    支持主流中文编码标准

         包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。

    支持多语种

        支持多语种网页的采集、分析、过滤、发布与检索。

  • 延伸阅读

    文章来源于领测软件测试网 https://www.ltesting.net/


    关于领测软件测试网 | 领测软件测试网合作伙伴 | 广告服务 | 投稿指南 | 联系我们 | 网站地图 | 友情链接
    版权所有(C) 2003-2010 TestAge(领测软件测试网)|领测国际科技(北京)有限公司|软件测试工程师培训网 All Rights Reserved
    北京市海淀区中关村南大街9号北京理工科技大厦1402室 京ICP备10010545号-5
    技术支持和业务联系:info@testage.com.cn 电话:010-51297073

    软件测试 | 领测国际ISTQBISTQB官网TMMiTMMi认证国际软件测试工程师认证领测软件测试网