清华同方互联网专题搜索引擎解决方案

发表于:2007-06-09来源:作者:点击数: 标签:
产品介绍 互联网上的资源浩如烟海,良莠不齐,给我们提供了丰富的信息,同时也增加了我们获取准确信息的难度。 清华同方 互联网专题搜索引擎针 对这个问题,利用先进的技术,快速采集海量信息,经过自然语义分析过滤,可及时、准确地从互联网上采集对我们有

产品介绍

    互联网上的资源浩如烟海,良莠不齐,给我们提供了丰富的信息,同时也增加了我们获取准确信息的难度。clearcase/" target="_blank" >cc">清华同方互联网专题搜索引擎针

对这个问题,利用先进的技术,快速采集海量信息,经过自然语义分析过滤,可及时、准确地从互联网上采集对我们有用的信息,并存储在本地。

     本系统具有优异的性能,强大的功能和易用的人机界面,是企业、政府、高校等单位开发利用互联网信息资源的有效工具。已经广泛应用于各个单位的互联网专题特色库的采集与发布,广泛应用于新闻出版单位的网络出版监管,广泛应用于企业竞争情报的采集与利用。

行业应用

    企业可通过该系统及时获取最新的行业信息、市场动态和竞争情报,在第一时间内发现潜在的威胁和市场机遇,为企业经营决策提供支持,提高企业的竞争力和灵敏度。

     政府可通过该系统及时发现互联网上的新闻热点和敏感信息,准确把握社会舆论动向,做出正确的决策。

     高校和研究院所等学术机构可通过该系统对学术类的网站、论坛数据库等信息源进行定向采集,及时获取该学术领域内的最新研究成果和研究热点。

系统结构

清华同方互联网专题搜索引擎涉及信息采集、智能过滤、动态发布、任务调度四个模块。

  • 信息采集 网络蜘蛛是系统的基础部件,负责从互联网抓取数据,网络蜘蛛采用多线程技术设计,可以同时抓取多个网站,并可以根据需要进行群集。
  • 智能过滤 智能代理是系统的核心模块,它集成多种智能信息处理算法,可基于先进的语义规则技术进行浅层语义分析,对所有抓取的网络数据进行全面的分析过滤,准确识别出所需要的信息。智能代理自动获取操作对象知识以及用户偏好,可及时自我学习,完善知识体系,提高智能化程度。
  • 动态发布 智能代理分析过滤出来的信息,可实时发布在数据库中,进行实时排重,可供用户进行检索、浏览和下载
  • 任务调度 应用服务器是整个系统的调度中心,主要起到任务分配、子系统间消息转发及各子系统调度作用。各个子系统连接到应用服务器,由应用服务器统一管理和调度,各子系统可随时连接,也可随时断开,而不影响整个系统的运行,具有很强的扩展性。

    功能特点

    先进的智能代理

  • 支持自动分类;
  • 自定义分类体系,为用户提供了多种方式定制感兴趣的主题;
  • 拥有自学习功能,可以根据用户反馈信息,及时完善知识体系,提高智能化程度。

    强大的信息采集能力

  • 多线程并行采集;
  • 实时动态监控特定目标;
  • 可以灵活定制采集的策略;
  • 可以大范围采集,也可以针对特定网站和频道进行采集;
  • 支持RSS协议,可实现RSS资源的采集;
  • 系统可以采集多种文档信息,包括txt、doc、rtf、xml、ppt、pdf、chm、caj等。

    强大的发布系统

  • 支持动态摘要和敏感摘要,关键词标红;
  • 提供多种发布风格;
  • 提供网页快照和相关网页自动关联。

    个性化定制

        支持用户自定义个性化分词词典,只需要简单的输入自定义的各种专业词汇,系统便会按照用户的定制精确检索,大幅提高检索效率和查全查准率。

    支持主流中文编码标准

         包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。

    支持多语种

        支持多语种网页的采集、分析、过滤、发布与检索。

  • 原文转自:http://www.ltesting.net