首页 | 公司介绍 | 新闻中心 | 产品 | 解决方案 | 网站建设 | 代理合作 | 联系我们
电子商务整体解决方案
企业上网整体解决方案
行业报信息化解决方案
网络安全整体解决方案
校园网整体解决方案
军队信息化整体解决方案
政府上网整体解决方案
相关解决方案
 
高校教务系统解决方案
校园SSO用户单点登陆系统解决
(1+1+N)汇智创新!数学校园
联通165综合服务门户解决方案
EQManager教育行业解决方案
高校网上报名系统(PS!SRS)
校园网络实验室系统建设整体
商业银行报表管理系统
网上支付平台功能解决方案
移动短消息平台综述

 

 

 
 首页 >> 解决方案 >> 校园网整体解决方案

互联网信息采集及发布系统

    互联网采集系统的使用,使得信息管理人员从繁重的信息收集整理工作当中解脱出来,把主要精力花费在信息的深度加工和理性分析上,从而节约了时间成本,提高了工作效率。

     互联网采集系统,会将所有采集到的信息自动分类,定期发布,而且具有强大的检索功能,为用户提供及时快速的内容浏览。

    本方案的核心,可以概括为“一个资源,两个平台”,一个资源指的是把互联网资源采集到本地的服务上,形成空军指挥学院有效管理的资源,两个平台指的是“数据整理平台”和“应用服务平台”,前者用于整理数据资源库,后者用于使用资源库对外提供共享服务。

系统实现的原理是通过建立网页资源库、结合Spider技术、内容分析技术,引入用户数据项和替换抽取指令编辑器等,提供和定制可视化通用性较强的互联网信息采集系统,能定期自动跟踪相关网站或网页,进行比较分析、抽取、规整入库、分类等从互联网上获取所需信息。

系统实现工作流程如下:

实际工作流程

采集系统工作流程

说明

下载

建立下载用文件目录

建立或指定网页资源库

后者某类工程对一资源库

 

更新

下载网页/图片到本地

解析保存到网页资源库

后者更能有效筛选范围、解析特殊链接

 

 

 

程进 行分 析整 理入

分析网页内部规律

分析网页内部规律

均用户干预,用户流览网站、查看分析网页源Html

定义数据项、与表结构对应

定义或加载数据项申明文件

某类处理对应申明文件

扫描下载到本地目录

扫描网页资源库

后者可视化定义筛选范围

对每个文件进行替换或抽取分析处理

通过替换抽取过程编辑器定义处理指令后系统解释执行

后者可加载模板,可视化操作,无需用户编程

对图片附件分析处理

定义其它信息采集规则

可视化配置后自动完成。

将分析后信息整理和入库

根据数据项与数据库的映射、查重规则等自动处理

 

 

调试程

下载、取样、文件操作、内容分析,反复调试,清空或还原测试数据

直接从互联网上拖入网址即能可视化测试、预览、排版和入库

前者极不方便,后者灵活。

 

定期跟

手工重新执行以上过程/程序,需设法手工排重

重新解析和增量下载(起点控制、地址排重、断续扫描)

后者可自动跟踪。

系统功能:

一:信息资源采集

       1、互联网信息定制

       2、互联网信息下载

       3、导出机制

二:信息整理、检索及发布

   
北京汇智创新科技发展有限公司版权所有 地址:北京市海淀区中关村东路财智国际大厦B座1201
邮编:100083
业务咨询电话:010-82601830/1/2/3 传真:010-82601830-852
Copyright ©2002-2004 PeopleSolution.net All rights reserved 京ICP备040163号