扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
来源:支点网 2010年4月28日
关键字: 网络
系统概述:随着互联网的高速发展,面对几十亿的Web页面,人们通常采用搜索引擎来作为查询信息的手段。但是,采用搜索引擎手工搜索的方式费时费力,而且人们往往需要的是特定行业和领域的最新专业知识,采用一般的搜索引擎无法动态实时地跟踪这些相关信息,搜索到的信息也缺乏有效的存储和管理的手段。因此,传统的搜索引擎无法有效地满足人们在知识管理领域中更高层次的需求。
深思公司对于上述问题提出可行的解决方案-”深思知识雷达系统”。
深思知识雷达系统,采用IBM中国研究中心独家授权的最新中文信息处理研究成果,应用网上代理人技术,智能分类技术,内容去重和中文语义检索技术,能够基于用户定义的知识体系,动态搜索互联网,实时监测和抓取相关信息,为用户提供基于互联网的实时知识获取、知识发现和知识管理服务。
主要特点
实时网上采集
快速:网页抓取采用多线程并发搜索技术,并可设置并发线程的最大个数。
灵活:可以同时跟踪抓取多个网站,能够提供灵活的网站、栏目或频道的采集策略,以及利用逻辑关系定位采集内容。
准确:不多抓与少抓,可自定义需要抓取的文件格式,能够抓取图片和表格信息,抓取过程成熟可靠,容错性强,完成初始设定后可长时间稳定运行。
自动网页分析
语种识别――自动识别网页的语种。
内容过滤――能够过滤掉广告、导航信息、版权等无用信息,能够剔除反动、色情内容。
内容排重――对于不同网站相同或雷同的内容,能够自动判别并标注为雷同,判别的方法可以由用户定义的规则判定及自动按内容的相似度判定。
格式转换――自动将HTML格式转换为文本文件。
自动标引――对网页自动提取标题、版次、日期、作者、栏目、分类等信息。
高效自动分类
支持机检分类――能够利用预定义的关键词和规则方法判定类别;
支持自动分类――通过机器自动学习或预学习自动分类,并达到80%以上的准确率。
支持多种分类标准――比如按地域(华北、华南等)、内容(政治、科技、军事、教育等)、来源(新浪网等)等。
素材共享发布
素材共享存储――抓取并分类的网页素材即可以以文件方式保存,亦可以存储在关系数据库中。
分类导航浏览――提供网页素材的分类导航浏览;
全文语义检索――提供可选的中文语义全文检索引擎,实现关键字的全文检索;
个性订阅推送――提供个性化定制订阅推送功能,用户可以自定义规则设置感兴趣的新闻素材进行订阅,系统根据用户的订阅设置,定期或定时将最新符合订阅规则的新闻素材通过邮件或门户网站推送给用户。
便捷系统管理
整合的单一界面――系统提供基于Web的用户使用界面和管理员界面,满足系统管理员和用户双重需求,可利用浏览器远程管理分类目录、用户权限并调整、加强分类结果。
完整的目录维护――提供完整的对分类目录进行新增、移动、修改、删除等管理维护
权限管理,可设定管理目录和单一文件使用权限,加强安全管理。
实时的文件管理――可以浏览每个目录分类结果,并实时进行移动、更名等调整。也可指定训练样本,强化分类质量。
友好的在线帮助――提供友好的使用指南。
系统的开放性
提供C API和 Javabeans组件。
支持与 DB2, Oracle等主流RDBMS无缝集成的领先方案。
支持各种Windows、AIX、Solaris、Linux等主流操作系统、支持各种Web应用服务器和Web服务器
应用环境
硬件环境
要求硬件能运行AIX、Solaris、Linux、Windows NT或Windows 2000操作系统,内存大小建议为512M。
软件系统
支持AIX、Linux、Solaris三种UNIX操作系统,Windows NT或Windows 2000操作系统。
本软件的运行另外需要关系型数据库(如DB2,Oracle,SQL Server等)和Java应用服务器(如Websphere,Weblogic等)的支持。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。