扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
来源:支点网 2010年11月19日
关键字: 清华同方
产品介绍:互联网上的资源浩如烟海,良莠不齐,给我们提供了丰富的信息,同时也增加了我们获取准确信息的难度。清华同方互联网专题搜索引擎针 对这个问题,利用先进的技术,快速采集海量信息,经过自然语义分析过滤,可及时、准确地从互联网上采集对我们有用的信息,并存储在本地。
本系统具有优异的性能,强大的功能和易用的人机界面,是企业、政府、高校等单位开发利用互联网信息资源的有效工具。已经广泛应用于各个单位的互联网专题特色库的采集与发布,广泛应用于新闻出版单位的网络出版监管,广泛应用于企业竞争情报的采集与利用。
行业应用
企业可通过该系统及时获取最新的行业信息、市场动态和竞争情报,在第一时间内发现潜在的威胁和市场机遇,为企业经营决策提供支持,提高企业的竞争力和灵敏度。
政府可通过该系统及时发现互联网上的新闻热点和敏感信息,准确把握社会舆论动向,做出正确的决策。
高校和研究院所等学术机构可通过该系统对学术类的网站、论坛、数据库等信息源进行定向采集,及时获取该学术领域内的最新研究成果和研究热点。
系统结构
清华同方互联网专题搜索引擎涉及信息采集、智能过滤、动态发布、任务调度四个模块。
信息采集 网络蜘蛛是系统的基础部件,负责从互联网抓取数据,网络蜘蛛采用多线程技术设计,可以同时抓取多个网站,并可以根据需要进行群集。 智能过滤 智能代理是系统的核心模块,它集成多种智能信息处理算法,可基于先进的语义规则技术进行浅层语义分析,对所有抓取的网络数据进行全面的分析过滤,准确识别出所需要的信息。智能代理自动获取操作对象知识以及用户偏好,可及时自我学习,完善知识体系,提高智能化程度。 动态发布 智能代理分析过滤出来的信息,可实时发布在数据库中,进行实时排重,可供用户进行检索、浏览和下载。 任务调度 应用服务器是整个系统的调度中心,主要起到任务分配、子系统间消息转发及各子系统调度作用。各个子系统连接到应用服务器,由应用服务器统一管理和调度,各子系统可随时连接,也可随时断开,而不影响整个系统的运行,具有很强的扩展性。 功能特点先进的智能代理
支持自动分类; 自定义分类体系,为用户提供了多种方式定制感兴趣的主题; 拥有自学习功能,可以根据用户反馈信息,及时完善知识体系,提高智能化程度。
强大的信息采集能力
多线程并行采集; 实时动态监控特定目标; 可以灵活定制采集的策略; 可以大范围采集,也可以针对特定网站和频道进行采集; 支持RSS协议,可实现RSS资源的采集; 系统可以采集多种文档信息,包括txt、doc、rtf、xml、ppt、pdf、chm、caj等。
强大的发布系统
支持动态摘要和敏感摘要,关键词标红; 提供多种发布风格; 提供网页快照和相关网页自动关联。
个性化定制
支持用户自定义个性化分词词典,只需要简单的输入自定义的各种专业词汇,系统便会按照用户的定制精确检索,大幅提高检索效率和查全查准率。
支持主流中文编码标准
包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。
支持多语种
支持多语种网页的采集、分析、过滤、发布与检索。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者