互联网采集系统的使用,使得信息管理人员从繁重的信息收集整理工作当中解脱出来,把主要精力花费在信息的深度加工和理性分析上,从而节约了时间成本,提高了工作效率。
互联网采集系统,会将所有采集到的信息自动分类,定期发布,而且具有强大的检索功能,为用户提供及时快速的内容浏览。
本方案的核心,可以概括为“一个资源,两个平台”,一个资源指的是把互联网资源采集到本地的服务上,形成空军指挥学院有效管理的资源,两个平台指的是“数据整理平台”和“应用服务平台”,前者用于整理数据资源库,后者用于使用资源库对外提供共享服务。
系统实现的原理是通过建立网页资源库、结合Spider技术、内容分析技术,引入用户数据项和替换抽取指令编辑器等,提供和定制可视化通用性较强的互联网信息采集系统,能定期自动跟踪相关网站或网页,进行比较分析、抽取、规整入库、分类等从互联网上获取所需信息。
系统实现工作流程如下:
|
实际工作流程 |
采集系统工作流程 |
说明 |
|
下载 |
建立下载用文件目录 |
建立或指定网页资源库 |
后者某类工程对一资源库 |
|
更新 |
下载网页/图片到本地 |
解析保存到网页资源库 |
后者更能有效筛选范围、解析特殊链接 |
|
编 程进 行分 析整 理入 库 |
分析网页内部规律 |
分析网页内部规律 |
均用户干预,用户流览网站、查看分析网页源Html |
|
定义数据项、与表结构对应 |
定义或加载数据项申明文件 |
某类处理对应申明文件 |
|
扫描下载到本地目录 |
扫描网页资源库 |
后者可视化定义筛选范围 |
|
对每个文件进行替换或抽取分析处理 |
通过替换抽取过程编辑器定义处理指令后系统解释执行 |
后者可加载模板,可视化操作,无需用户编程 |
|
对图片附件分析处理 |
定义其它信息采集规则 |
可视化配置后自动完成。 |
|
将分析后信息整理和入库 |
根据数据项与数据库的映射、查重规则等自动处理 |
|
|
调试程 序 |
下载、取样、文件操作、内容分析,反复调试,清空或还原测试数据… |
直接从互联网上拖入网址即能可视化测试、预览、排版和入库 |
前者极不方便,后者灵活。 |
|
定期跟 踪 |
手工重新执行以上过程/程序,需设法手工排重 |
重新解析和增量下载(起点控制、地址排重、断续扫描) |
后者可自动跟踪。 |
系统功能:
一:信息资源采集
1、互联网信息定制
2、互联网信息下载
3、导出机制
二:信息整理、检索及发布

|