当前位置:首页 > 物联网 > 《物联网技术》杂志
[导读]摘 要:科技情报大数据运用行业人工智能分析技术,基于及时、海量、跨领域、高纵深的互联网大数据,为政府和企事业单位打造可定向抓取、语义分析、深度学习、完善知识图谱的人工智能科技情报解决方案。还可以满足地区竞争力、企业发展、竞对状况、行业/技术跟踪等方面的科技情报挖掘需求。IDC估计,到2020年,33%的数据将包含有价值的信息。Hadoop 的目的在于基于一种新的方法来存储和处理复杂的数据。通过把数据均衡分布到集群上,复制副本以确保数据的可靠性和容错性。存储和计算都分布到多个机器上,以充分体现数据的本地性,且当前很多数据库也支持数据分片技术。Hadoop分布式系统已成为大数据挖掘系统的重要组成部分。文中在Hadoop分布式平台上完成了科技情报数据深度分析的一次实践。

引 言

大数据拥有数据量巨大;数据类型多样;数据中富含价值; 在尽可能短的时间内挖掘出数据的真实性等典型特征[1]。

数据挖掘技术 [2](Data Mining)可在大型数据库中自动发现有用信息,具有聚类分析,预测建模,关联分析,异常检测等功能,既可以独立运行,也可以联合操作。聚类分析实用的技术包括 K 均值、凝聚层次聚类、dbscan、簇评估等,主要目的在于通过基于原型、密度、图像等的聚类,发现其间关系。预测建模更多的是一种可视化角度分析方法,利用分类、回归等方法建立模型以解决问题。数据挖掘技术分为统计方法、机器学习方法、神经网络方法和数据库方法。

计算机机器人专业博士邓侃 [3] 表示,大数据不是忽悠, 关键要能够发现其中的价值,而数据挖掘的算法、云计算和并行计算就是发现数据价值的工具。

科技情报服务平台维护的公益类科技服务平台,是为顺应情报系统的网络化、智能化、集成化和决策化的未来发展要求而构建的自动化情报收集与服务体系,可从每日涌现在互联网上的海量信息中快速、准确地获取有用信息,并完成对情报资料的自动筛选、分类、分析工作,为政府部门、科研人员和企业提供具有前瞻性、时效性和专业化的情报服务。它采用知识管理的理念和技术对科技信息资源进行深度挖掘和战略优化,通过强化科技信息的智能采集和深度加工、发布和共享机制,构建科技情报创新服务体系。

1 数据挖掘简介

数据挖掘的主要任务是关联分析、聚类分析、分类、预测、时序模式和偏差分析等[4]。

(1) 关联 分 析(AssociationAnalysis)。 关联 规 则由 RakeshApwal 等人率先提出。两个或两个以上变量取值之间存在的规律称为关联,使得所挖掘的规则更符合需求。

(2) 聚类分析(Clustering)。聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。

(3) 分类(Classification)。分类即找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。

(4) 预测(Predication)。预测是利用历史数据找出变化规律,建立模型,并由此模型预测未来数据的种类及特征。

(5) 时序模式(Time-SeriesPattern)。时序模式是指通过时间序列搜索出重复发生概率较高的模式。

(6) 偏差分析(Deviation)。在偏差中包括很多有价值的知识,数据库中的数据存在诸多异常情况,而发现数据库中数据存在的异常情况非常重要。

2 科技信息采集与存储系统

使用垂直搜索技术在互联网扩大信息搜集途径,实现了科技信息的采集与存储[5]。智能情报加工系统运用信息抽取、机器学习、自然语言理解、信息检索等技术对文本进行处理, 实现对海量信息的数据挖掘,完成数据的自动分类、聚类、去除重复信息、发现关联规则、自动文摘的生成等。科技信息发布与共享平台通过将门户型科技信息发布平台作为情报发布、信息共享、交流互动的窗口与载体,可提供情报简报的自动生成、定题服务等功能。

该平台是集情报收集、存储、处理和分析于一体的新一代综合性信息系统。其主要功能是协助情报人员制定情报计划, 系统地收集信息,并对收集到的信息进行分析和加工,生成情报产品并提交给用户,为用户提供公益情报服务。

3 科技信息采集与存储体系

科技信息采集与存储体系的主要功能在于可完成情报信息分类体系规划与情报信息源规划。采用垂直网站抓取技术, 通过设置关键词、数据源、重要程度等抓取策略,自动发现互联网相关内容,并对页面进行抓取。通过索引技术对抓取到的文档进行全文索引,为用户提供全局文档信息搜索结果; 搜索结果以知识树的方式展现,并实现对抓取内容的管理。

抓取器由 URL 搜索引擎、页面抓取引擎 [6](页面抓取器) 组成,用以实现 URL 发现。抓取器需要对页面中的目录页面、 列表页面等非描述性内容页面进行剔除。URL 搜索引擎首先 对全互联网相关内容的 URL 进行搜索,并执行去重检测,以 保证相同页面只被抓取一次。 页面抓取引擎抓取页面后,对其内容进行分析,剔除其中 的非正文内容页面。抓取器内含定时抓取策略,可按一定时间 周期和抓取策略进行循环抓取,以确保我们能够及时获取互 联网更新的内容。

4 数据聚类算法

聚类,即一些给定的元素或者对象分散存储在数据库中, 根据我们感兴趣的对象属性对其进行聚集,同类对象之间相似度高,不同类之间差异较大。其最大的特点是事先不确定类别。这其中最经典的算法非 KMeans 算法[7] 莫属,而这也是最常用的聚类算法。在给定 K 值和 K 个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,待所有点分配完毕后,根据类簇内的所有点重新计算该类簇的中心点(取平均值),然后迭代进行分配点和更新类簇中心点的步骤,直至类簇中心点变化微小,或达到指定的迭代次数为止。KMeans 算法虽然思想比较简单,但合理确定 K 值和 K 个初始类簇的中心点对于聚类效果而言有很大影响。

5 信息抓取管理平台

信息抓取管理平台 是控制抓取的后台工具,分为 关键词抓取 和 深度抓取 。

关键词抓取 [8] 是指在互联网上抓取具有特定关键词的网页,每 24 小时抓取一次,于夜晚进行,以保证抓取网页与互联网上的信息同步更新。

深度抓取 [9] 是指一次性获取某个网站的全部信息,以快速积累初始数据。深度抓取是一次性的抓取,不会更新。

5.1 关键内容抓取

根据北京科技信息网的需求,确定数据搜索内容包括科技政策科技动态等频道内容。抓取器通过设定依内容抓取的策略,对全网内容进行抓取。并通过后端的内容聚 合进行内容的后处理,以便实现关键内容的抓取。如图 1 所示, 当标签位置为“普通抓取”时,可实现对关键内容的抓取

基于科技情报Hadoop平台的系统研究

5.2 深度抓取

北京市科技信息网 对一些特定网站设定了全站内容抓取,对全站内容进行一次性内容获取,并实时对其更新的内容进行监控,同步抓取。如图 2 所示,当标签位置为 深度抓取时,可以实现对全站内容的抓取。

基于科技情报Hadoop平台的系统研究

图 2 控制台的深度抓取界面

5.3 工作状况的实时监控与回溯查询

实时监控终端对引擎运行的各项指标进行实时监控,以随时掌握引擎的运行状态。 回溯查询平台 可查看已抓取的网页和网页去噪情况。回溯查询平台界面如图 3 所示。

基于科技情报Hadoop平台的系统研究

图 3 回溯查询平台界面

6 分词功能介绍

分词程序主要包含 4 大模块,分别为数据输入模块、基本前向后向分词、数量词识别以及歧义消解模块。

7 去重功能介绍

该模块可对网页进行去重操作[10]。

8 分类功能介绍

实现中文信息自动分门别类 [11] 是一项及其复杂的工作。本系统根据中文智能分词技术[12] 实现了分类功能,即根据文本内容的特点分别归类。通过人工对其进行简单的 训练 后, 可对文本进行高速智能的自动分类。分类可实现多层的树状结构,允许一篇文档同时属于多个分类。分类过程主要包括文本预处理,抽取特征项,分类算法等。

9 结 语

系统拥有的网络化情报自动采集、智能加工、发布共享体系架构等功能使得该体系能够利用先进的科技信息采集工具, 实现异构信息资源的采集、转变、整理、合成,以统一的模版格式实现科技情报信息资源服务,去除科技信息资源种类、架构等无关信息,实现用户的透明操作;采用统一的信息采集、加工处理、管理平台,实现采集、加工处理过程的个性化流程个性化定制;实现了科技情报信息资源面向不同种类用户和不同种类应用的科技信息发布服务;基于网络的自动化情报收集、加工与发布体系是公益性情报服务平台的发展趋势。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

特朗普集团近日取消了其新推出的T1智能手机“将在美国制造”的宣传标语,此举源于外界对这款手机能否以当前定价在美国本土生产的质疑。

关键字: 特朗普 苹果 AI

美国总统特朗普在公开场合表示,他已要求苹果公司CEO蒂姆·库克停止在印度建厂,矛头直指该公司生产多元化的计划。

关键字: 特朗普 苹果 AI

4月10日消息,据媒体报道,美国总统特朗普宣布,美国对部分贸易伙伴暂停90天执行新关税政策,同时对中国的关税提高到125%,该消息公布后苹果股价飙升了15%。这次反弹使苹果市值增加了4000多亿美元,目前苹果市值接近3万...

关键字: 特朗普 AI 人工智能 特斯拉

3月25日消息,据报道,当地时间3月20日,美国总统特朗普在社交媒体平台“真实社交”上发文写道:“那些被抓到破坏特斯拉的人,将有很大可能被判入狱长达20年,这包括资助(破坏特斯拉汽车)者,我们正在寻找你。”

关键字: 特朗普 AI 人工智能 特斯拉

1月22日消息,刚刚,新任美国总统特朗普放出重磅消息,将全力支持美国AI发展。

关键字: 特朗普 AI 人工智能

特朗普先生有两件事一定会载入史册,一个是筑墙,一个是挖坑。在美墨边境筑墙的口号确保边境安全,降低因非法移民引起的犯罪率过高问题;在中美科技产业之间挖坑的口号也是安全,美国企业不得使用对美国国家安全构成威胁的电信设备,总统...

关键字: 特朗普 孤立主义 科技产业

据路透社1月17日消息显示,知情人士透露,特朗普已通知英特尔、铠侠在内的几家华为供应商,将要撤销其对华为的出货的部分许可证,同时将拒绝其他数十个向华为供货的申请。据透露,共有4家公司的8份许可被撤销。另外,相关公司收到撤...

关键字: 华为 芯片 特朗普

曾在2018年时被美国总统特朗普称作“世界第八奇迹”的富士康集团在美国威斯康星州投资建设的LCD显示屏工厂项目,如今却因为富士康将项目大幅缩水并拒绝签订新的合同而陷入了僵局。这也导致富士康无法从当地政府那里获得约40亿美...

关键字: 特朗普 富士康

今年5月,因自己发布的推文被贴上“无确凿依据”标签而与推特发生激烈争执后,美国总统特朗普签署了一项行政令,下令要求重审《通信规范法》第230条。

关键字: 谷歌 facebook 特朗普

众所周知,寄往白宫的所有邮件在到达白宫之前都会在他地进行分类和筛选。9月19日,根据美国相关执法官员的通报,本周早些时候,执法人员截获了一个寄给特朗普总统的包裹,该包裹内包含蓖麻毒蛋白。

关键字: 美国 白宫 特朗普
关闭