2005年6月 汇智创新签约国家统计局国际中心I-Get开发项目
汇智创新今日与国家统计局国际中心签订了项目开发协议,本次合作主要是开发互联网信息采集系统。本系统是基于Internet信息获取技术的综合性信息处理平台,作为完全个性化信息服务专家,其主要目的是帮助您从Internet网络获取信息,并有效进行分类,快速检索,定向发布,让用户快速有效地得到所需要的信息。
·支持多种类型信息的获取 强大的信息获取工具不仅可以采集普通的静态和动态网页信息,而且可以采集zip、mp3、avi、rar、mov、pdf、jpg、gif等多达几十种不同类型的信息。 ·信息重复下载控制 通过对指定页面的位置、时间、内容等条件的智能化信息分析,有效防止信息的重复下载情况,提高信息的获取效率。 ·完善的信息源配置 用户可以自定义每个信息源的标示、起始地址、抓取信息地址格式、抓取信息类型、抓取区域、抓取深度、关键字、优先级、启停时间、模版等参数,同时,系统还提供完善的信息源管理功能,可方便的实现网站信息源的增、删、改、查等操作。 ·支持模版下载 通过指定模版,实现网页正文信息的精确下载,自动过滤无用的广告、栏目、版权等信息,同一信息源下还可设置多个不同的下载模板。 ·支持关键字下载 用户可以通过设置关键字获取指定的信息,关键字支持与、或、非的逻辑组合,同时,系统还提供完善的关键字管理功能。 ·支持代理下载和用户认证下载 ·支持信息的智能分类 针对SVM,KNN,Bayes和神经网络等传统分类器的不足,使用目前国际最先进的Boosting分类器(内含多种分类算法),在对用户已有的分类体系的学习基础上,可以实现信息的准确分类。 ·下载速度快 多进程多线程多信息源同时,下载用户可以根据同时启动多个进程,每个进程可以启动10个下载线程进行高速信息页的下载(支持SMP),系统可以根据网络带宽和数据流量自动调节启动的进程数和线程数。共享2M带宽即可达到,平均每小时下载240M数据,或约12万个网页。 ·支持镜像下载 系统可以将获取的信息保存在本地,不会因为源网站的故障或信息删除,而影响已获取信息的检索和应用。 ·开放性: 采集到的网页信息经过各种自动标引和加工处理后统一存放为XML格式文件,方便应用的定制开发和与其它产品的集成;还可以把信息直接导出为文本文件或直接导入到SQL Server数据库表中。 ·内嵌I-Search全文检索――快、准、全 用户无须对检索内容做任何标引, 即可对全文信息进行快速检索,慧聪的I-Search内核是针对中文特性而研制的检索软件,具有极高的平均响应速度,真正作到亿万汉字秒级响应。1GB中文全文数据,100万条记录,单机平均检索速度为0.1秒。 |