1 建设意义
近年来,随着互联网技术的发展与互联网信息市场的不断完善,网络的功能和网络信息内容发生了急剧的变化。由于网络媒体的交互性、内容的开放性、传播主体的开放性、跨时空等特点,网络已经成为信息交流和信息服务的平台。
借助于互联网通道,采用新的技术手段,对网络上的竞争情报信息进行监测,就可以了解行业生存特点,挖掘情报内涵,从而辅助决策。
我公司采用自主研发的搜索引擎技术、多格式文件内容提取技术、多语种分词分析技术、特征信息挖掘、语义分析、人工智能分析、模式识别、神经网络、海量全文数据存储管理、情报专题推送、分布式系统均衡调度等技术,对互联网上的情报,自动搜索、自动定位、自动分析、自动关联、主题检测、专题聚焦,实现用户的情报监测和专题追踪等信息需求。
可从如下10类情报表现形式中采集情报:
网站或网站频道
在线数据库
网络专题
网络评论专栏
网络即时评论或跟帖
网络论坛言论
博客
帖吧
点击排行
聚合新闻(RSS)
类型 |
文件格式说明 |
网页文件 |
html、dhtml、shtml、javascript文件等。 |
CGI程序执行结果 |
ASP程序结果、C#程序结果、PHP程序结果、JSP程序结果、Servlet程序结果、C/C++程序结果等。 |
MS Office文件 |
Word文件、Excel文件、PowerPoint文件、Visio文件、Outlook文件。 |
OpenOffice文件 |
odt文件档案文件、odp简报文件、ods计算表文件、odg图形档案文件、odb资料库文件。 |
PDF文件 |
pdf文件。 |
其它文本格式文件 |
文本文件、RTF文件、xml文件、java文件等。 |
图片文件 |
jpg文件、gif文件、png文件、bmp文件等。 |
多媒体文件 |
mp3文件、midi文件、wav文件等。 |
压缩文件 |
gzip文件、bzip2文件、tar文件、zip文件、jar文件等。 |
可采集如下11个语种的情报信息:
中文、英文、日文、俄文、德文、法文、韩文、希腊文、捷克文、巴西文、荷兰文等。
(1) 可直接接入互联网采集,也可穿过代理服务器采集。
(2) 可分析并处理WEB页重定向的问题。有的网站是在WEB服务器如IIS进行设置重定向的地址,有的则是在首页文件中,使用javascript进行网页重新定向。
(3) 可以分析并处理Unix/Linux网站下文件重定向的问题。
(4) 可以处理部分网站的 花招 ,自动过滤网站为搜索引擎准备的垃圾信息。有的网站为搜索引擎准备了广告信息、或垃圾信息、或提示禁止搜索的信息等,本系统可模仿正常访问有效避免。
(5) 可以突破部分网站的用户名和密码,搜索其内部网页。
(6) 可以穿透部分硬件防火墙,同时,防止IP地址被硬件防火墙锁定。
(7) 可以分析处理采用网页框架的网页。可以从网页文件、JavaScript程序段中,自动寻找网页链接。对不能分析的复杂的程序,可搜索下载这些程序,以便对搜索程序改进升级。
(8) 网页表单是WEB应用程序收集用户真实数据的主要方式。表单允许用户输入信息到不同控件,然后将这些结果提交给WEB服务器,本系统就可以模仿用户自动填写表单,以获取更多的信息。
(9) Cookie使WEB服务器可以标记认可的用户,从而可以标识同一用户发送的后续请求,这样就可以有效地处理页面之间的用户认证问题。
(10) 可自动进行排重处理,避免重复搜索,以提高搜索效率。
(11) 可搜索IPv4协议的网站,也可搜索IPv6协议的网站。
(1) 自动检测采集工作站、自动分配任务、自动均衡性能。
(2) 集群中有多台采集工作站运行。
(3) 每台采集工作站有多个任务执行。
(4) 每个任务有多个线程实施。
(5) 在搜索过程中,如果网络出现短暂故障,搜索程序自动判断并自动恢复运行。
(6) 可断点续搜。
(7) 可全新搜索,也可以增量搜索。
采用集群采集的好处是:
(1) 保证了网络读写、CPU运行、磁盘存储、信息处理的最优配合。
(2) 多线程可以避免采集工作站长时间的网络等待。
(3) 多线程避免了由于程序错误而导致的整个系统崩溃退出,增加了系统的稳定性。
(4) 满足超大型业务的处理需要。
在网络速度够快的情况下,单台采集工作站每天可采集259万个网页。
根据系统定义的情报分类,将搜索的信息自动归属到该情报分类下。
在网页上,有两部分内容:一部分是网页的主题信息,另一部分是与主题内容无关的导航条、广告信息等内容,我们称为 噪音 信息。为提高信息质量,必须过滤掉 噪音 信息。
(1) 能分析出网页标题和网页内容。
(2) 能分析Word文件、Excel文件、PowerPoint文件、Visio文件、Outlook文件、XML文件、HTML文件、PDF文件、文本文件、RTF文件、Java文件、ZIP压缩文件、BZip压缩文件、GZip压缩文件、TAR压缩文件、MP3文件、MIDI文件、WAV文件等格式文件的内容。
(3) 能分析中文、英文、日文、俄文、德文、法文等11种语种的信息。
(4) 能从网页中提取图片属性,并按图片属性分别标识,方便检索利用。
(5) 能从网页和文档中分析出关键词的值。
系统能自动对信息进行分词,自动建立以词为基础的关联树,自动建立信息之间的关系,方便信息的利用。
系统自动分析情报信息之间的匹配程度,结合信息标题进行检测,可较准确地去除重复情报信息。
授权用户可删除情报。
(1) 情报经过采集、加工后,可进行审核,确认是否发布。
(2) 只有审核通过的信息才能发布。
系统将检索所有可发布的信息。显示信息重要程度、标题、搜索来源、搜索时间。点击信息标题,可阅读搜索下来的全文,点击搜索来源,可访问源网站网页。可设置信息的重要程度,能标识是否已阅读该信息。
系统自动将当天的信息列出来,显示信息重要程度、标题、搜索来源、搜索时间。点击信息标题,可阅读搜索下来的全文,点击搜索来源,可访问源网站网页。可设置信息的重要程度,能标识是否已阅读该信息。
系统自动将各个情报分类下的访问量最高的信息列出来,显示信息重要程度、标题、搜索来源、搜索时间。点击信息标题,可阅读搜索下来的全文,点击搜索来源,可访问源网站网页。可设置信息的重要程度,能标识是否已阅读该信息。
1. 产品送达用户之日起 7 日内,出现“性能故障”,经由用户所购产品的生产厂家指定维修服务机构检测属实后,可以免费换货;
2.产品送达用户之日起,主机享有 12 个月保修服务,配件享有 6 个月保修服务。
1、若产品主机符合保修条件,根据保修卡与购机发票即可享受保修服务,若无法提供购买证明及保修卡,则以到货签收时间作为保修起算标准;
2、属非保修产品,用户所购产品的生产厂家指定维修服务机构做保外收费维修处理;
3、产品修复后相同的故障经用户所购产品的生产厂家指定维修服务机构检验属实后,享有 3 个月保修服务;
4、需要维修或检测的产品,向用户所购产品的生产厂家指定维修服务机构送修或检测过程中发生的运输、发货和处置费用由用户承担;维修或检测产品寄还用户时产生的运费由用户所购产品的生产厂家承担(仅限中国大陆境内);
5、需要维修或检测的产品,请用户及时备份机器内的数据。用户所购产品的生产厂家不对因数据丢失造成的损失负责;
6、产品在保修期内,维修中正常使用的零部件免费;
7、维修中被替换下来的零部件所有权归用户所购产品的生产厂家所有;
8、用户所购产品的生产厂家不对非产品标准配置的及未经公司认证的配件、软件或应用负责;
9、平台产品均按照国家三包政策执行(产品在未拆封的情况下),个别产品除外,如:定制产品,项目产品等。
10、本条款未尽事宜参考国家三包法律规定。
1、产品无购机发票和保修卡,亦不能在用户所购产品的生产厂家查询到相关的销售信息,且出库日期超过 12 个月;
2、产品主机和配件曾受到:非正常或错误的使用、非正常条件不当的存储、未经授权的拆卸或改动、事故、不恰当的安装造成的损害;
3、由于用户不当造成的损害,如液体注入、外力受损等;
4、未按产品使用说明书的要求进行使用,维修保养或以外运输造成的损坏;
5、 产品的损坏由外部包括但不限于卫星系统、地磁、静电、物理压力等非正常不可预测的因素引起的;
6、因不可抗力如地震、水灾、战争等原因造成的损坏;
7、其它不符合三包相关规定的情况。
您好,有什么能帮助您
2022-05-08 09:35您好,有什么能帮助您
2022-05-08 09:35此用户没有填写评价内容
2022-05-08 09:35此用户没有填写评价内容
2022-05-08 09:35此用户没有填写评价内容
2022-05-08 09:35此用户没有填写评价内容
2022-05-08 09:35