互联网信息采集系统
网络时代,是信息的时代。
互联网是企业生存不可忽视的外部环境,信息成为企业不可或缺的资源,如何利用互联网上丰富的信息资源,加以整合支持企业决策,成为全球众多行业先进者关心的话题。为此许多企业不惜巨资成立了专门的信息机构或依托专业公司来进行互联网信息的收集整理工作。
目前从市场调查来看,90%以上的企业都对互联网信息有强烈的需求,但是其中大部分企业又没有能力自建信息收集和整理的职能部门。
中搜在线软件研发的互联网信息采集系统,为广大用户解决了这一棘手的问题。
无论您需要的信息是免费开放的,还是收费加密的(用户必须具备合法取得信息的权限);也无论您需要的信息是出现在html等静态网页上,还是出现在jsp等动态网页上,互联网信息采集系统都可以为您轻松获取,准确无误。
如果您已经配备了企业级信息处理软件,那就最好不过了。互联网信息采集系统为外部系统设计了无缝连接配置系统,只要经过简单的数据库信息设置,就可以实现信息的自由流转。
如果您还没有企业级的信息处理软件,也没有关系,互联网信息采集系统本身具有便捷的信息查询和浏览功能。如果您认为这样的功能不足以完成企业应用,我们中搜在线软件可以为您提供定制的专业企业级信息处理软件。
互联网信息采集系统的使用,使得信息管理人员从繁重的信息收集整理工作当中解脱出来,把主要精力花费在信息的深度加工和理性分析上,从而节约了时间成本,提高了工作效率。
互联网信息采集系统正是企业、政府信息部门从互联网获取信息的最佳工具软件。
l 支持多种类型信息的获取
强大的信息获取工具不仅可以采集普通的静态和动态网页信息,而且可以采集zip、mp3、avi、rar、mov、pdf、jpg、gif等多达几十种不同类型的信息。
l 信息重复下载控制
通过对指定页面的位置、时间、内容等条件的智能化信息分析,有效防止信息的重复下载情况,提高信息的获取效率。
l 完善的信息源配置
用户可以自定义每个信息源的标示、起始地址、抓取信息地址格式、抓取信息类型、抓取区域、抓取深度、关键字、优先级、启停时间、模版等参数,同时,系统还提供完善的信息源管理功能,可方便的实现网站信息源的增、删、改、查等操作。
l 支持模版下载
通过指定模版,实现网页正文信息的精确下载,自动过滤无用的广告、栏目、版权等信息,同一信息源下还可设置多个不同的下载模板。
l 支持关键字下载
用户可以通过设置关键字获取指定的信息,关键字支持与、或、非的逻辑组合,同时,系统还提供完善的关键字管理功能。
l 支持代理下载和用户认证(cookie认证方式)下载
l 支持信息的智能分类
针对SVM,KNN,Bayes和神经网络等传统分类器的不足,使用目前国际最先进的Boosting分类器(内含多种分类算法),在对用户已有的分类体系的学习基础上,可以实现信息的准确分类。
l 下载速度快
多进程多线程多信息源同时,下载用户可以根据同时启动多个进程,每个进程可以启动10个下载线程进行高速信息页的下载(支持SMP),系统可以根据网络带宽和数据流量自动调节启动的进程数和线程数。共享2M带宽即可达到,平均每小时下载240M数据,或约12万个网页。
l 支持镜像下载
系统可以将获取的信息保存在本地,不会因为源网站的故障或信息删除,而影响已获取信息的检索和应用。
l 开放性:
采集到的网页信息经过各种自动标引和加工处理后统一存放为XML格式文件,方便应用的定制开发和与其它产品的集成;还可以把信息直接导出为文本文件或直接导入到SQL Server、mysql、oracle数据库表中。 |