科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网CIO与应用频道清华同方互联网专题搜索引擎解决方案

清华同方互联网专题搜索引擎解决方案

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

产品介绍:互联网上的资源浩如烟海,良莠不齐,给我们提供了丰富的信息,同时也增加了我们获取准确信息的难度。高校和研究院所等学术机构可通过该系统对学术类的网站、论坛、数据库等信息源进行定向采集,及时获取该学术领域内的最新研究成果和研究热点。

来源:支点网 2010年11月19日

关键字: 清华同方

  • 评论
  • 分享微博
  • 分享邮件

  产品介绍:互联网上的资源浩如烟海,良莠不齐,给我们提供了丰富的信息,同时也增加了我们获取准确信息的难度。清华同方互联网专题搜索引擎针 对这个问题,利用先进的技术,快速采集海量信息,经过自然语义分析过滤,可及时、准确地从互联网上采集对我们有用的信息,并存储在本地。

  本系统具有优异的性能,强大的功能和易用的人机界面,是企业、政府、高校等单位开发利用互联网信息资源的有效工具。已经广泛应用于各个单位的互联网专题特色库的采集与发布,广泛应用于新闻出版单位的网络出版监管,广泛应用于企业竞争情报的采集与利用。

  行业应用
  企业可通过该系统及时获取最新的行业信息、市场动态和竞争情报,在第一时间内发现潜在的威胁和市场机遇,为企业经营决策提供支持,提高企业的竞争力和灵敏度。

  政府可通过该系统及时发现互联网上的新闻热点和敏感信息,准确把握社会舆论动向,做出正确的决策。

  高校和研究院所等学术机构可通过该系统对学术类的网站、论坛、数据库等信息源进行定向采集,及时获取该学术领域内的最新研究成果和研究热点。

  系统结构
  清华同方互联网专题搜索引擎涉及信息采集、智能过滤、动态发布、任务调度四个模块。

  信息采集 网络蜘蛛是系统的基础部件,负责从互联网抓取数据,网络蜘蛛采用多线程技术设计,可以同时抓取多个网站,并可以根据需要进行群集。 智能过滤 智能代理是系统的核心模块,它集成多种智能信息处理算法,可基于先进的语义规则技术进行浅层语义分析,对所有抓取的网络数据进行全面的分析过滤,准确识别出所需要的信息。智能代理自动获取操作对象知识以及用户偏好,可及时自我学习,完善知识体系,提高智能化程度。 动态发布 智能代理分析过滤出来的信息,可实时发布在数据库中,进行实时排重,可供用户进行检索、浏览和下载。 任务调度 应用服务器是整个系统的调度中心,主要起到任务分配、子系统间消息转发及各子系统调度作用。各个子系统连接到应用服务器,由应用服务器统一管理和调度,各子系统可随时连接,也可随时断开,而不影响整个系统的运行,具有很强的扩展性。 功能特点先进的智能代理

  支持自动分类; 自定义分类体系,为用户提供了多种方式定制感兴趣的主题; 拥有自学习功能,可以根据用户反馈信息,及时完善知识体系,提高智能化程度。

  强大的信息采集能力

  多线程并行采集; 实时动态监控特定目标; 可以灵活定制采集的策略; 可以大范围采集,也可以针对特定网站和频道进行采集; 支持RSS协议,可实现RSS资源的采集; 系统可以采集多种文档信息,包括txt、doc、rtf、xml、ppt、pdf、chm、caj等。

  强大的发布系统

  支持动态摘要和敏感摘要,关键词标红; 提供多种发布风格; 提供网页快照和相关网页自动关联。

  个性化定制
  支持用户自定义个性化分词词典,只需要简单的输入自定义的各种专业词汇,系统便会按照用户的定制精确检索,大幅提高检索效率和查全查准率。

  支持主流中文编码标准
  包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。

  支持多语种
  支持多语种网页的采集、分析、过滤、发布与检索。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章