当前位置:首页 > 通信技术 > 通信技术
[导读]1 引言 近几年来,贝叶斯网络已成为数据挖掘和知识发现中的一个主要工具,在分类、聚类、预测和规则推导等方面取得了良好的应用效果。从历史数据中学习贝叶斯网络可采用基于依赖分析的方法。 常用的有:用

1 引言
    近几年来,贝叶斯网络已成为数据挖掘和知识发现中的一个主要工具,在分类、聚类、预测和规则推导等方面取得了良好的应用效果。从历史数据中学习贝叶斯网络可采用基于依赖分析的方法。
    常用的有:用Polytree表示概率网的方法、从完全图删除边的方法等。这种方法需要进行指数级的CI测试以发现依赖关系,当结点集较大时,其计算效率低,所以大多数此类算法都假设结点有序;但这种假设可能会影响最后学习到的网络结构的正确性。对于稀疏网络和具有较大样本数据集的系统,这种方法非常有效。
    针对基于依赖分析方法的这一缺点,在网络结构学习之前应用主元分析方法将数据降维,减少网络结点数目,可提高算法效率、简化网络结构。

2 数据处理及离散化
    现实数据库中的数据常存在数据不一致、数据丢失等现象,所以在运用数据学习网络结构前要对数据进行预处理。此外,对于连续性数据(如温度、湿度、长度等),直接建立贝叶斯网络模型计算复杂度大,从连续数据中很难正确学习到变量间的关系。因此首先将数据标准化,再将标准化后的连续变量离散化,用离散化后的数据进行贝叶斯网络结构的学习。这里采用模糊离散化方法,对数据集的每个属性分别进行离散化,每个属性都有3个标度:5标度、7标度、9标度可以选择。算法步骤如下:
    (1)随机初始化隶属度矩阵:

  

3 基于PCA的贝叶斯网络结构学习算法
    主元分析PCA(Principal Component Analysis)是通过可逆线性变换,将数据集转换为由维数较少的特征成分表示的、包含原数据集所有信息或大部分信息的技术。通过PCA技术,可以将复杂数据简化,因此它现已被广泛应用于数据挖掘、模式识别、信号评估、信号探测、图像编码等领域。主元分析的原理如下:
    令x为表示环境的m维随机向量。假设x均值为零,即

    E[x]=0 (4)
    令w表示m维单位向量,x在ω上投影。该投影被定义为向量x和ω的内积,表示为:

  
    主元分析的目的就是寻找一个权值向量w,使得表达式的值最大化:

   
    即使得式(7)值最大化的w是矩阵的最大特征值所对应的特征向量。
    鉴于主元分析的优点,这里引入主元分析技术给数据集降维,然后用降维后的数据构建网络,提高学习贝叶斯网络结构算法的效率、简化网络结构。构造贝叶斯网络的算法步骤如下:
    (1)用普瑞姆算法生成最大似然树构造初始贝叶斯网络;
    (2)对所有互信息大于阈值且在当前图中无边的结点对n1、n2:①找出它们邻接路径上的邻居结点,设n1、n2的邻居结点的结点集分别为S1和S2;② 令集合S1和S2中较小的一个作为条件集合C;③计算条件互信息v=I(n1,n2|c),如果v<ε,则返回分离;否则,如果C只包含一个结点,那么转去步骤⑤,否则,对每一个i,令Ci=c{C中的第i个结点},vi=I(n1,n2|Ci);④如果vmin<ε,则返回分离,否则返回步骤③;⑤如果S2没有用过,那么用S2作为条件集C,返回步骤③;否则,返回失败。⑥如果这对结点在当前图中能够被分离,则检测下一对结点,否则,向网中添加连接这对结点的边。
    (3)对每一条图中存在边的结点对,如果除这条边外它们之间还存在其他路径,那么暂时从图中移掉这条边,然后对这对结点进行步骤①~⑥的检验;如果这对结点不能被分离,则仍将前面移掉的边加入图中,否则永久移除这条边;
    (4)用碰撞识别V结构的方法定向网络中的边,对不能构成V结构的边用打分的方法对其进行定向。


4 实验
    用IRIS实际数据、Zoo Data、Glass Identification Data作为网络学习的数据集,这3组数据是UCI数据集中3个用于分类的数据集。
    其中IRIS数据和Glass Identification Data是连续的,所以在用数据学习贝叶斯网络前需要对数据进行模糊离散化处理。以下实验中的每个属性的离散化标度是任意选择的。实验1,比较经PCA降维的数据构造贝叶斯网络并进行分类的结果与未经PCA降维的数据分类结果的准确率,如表1所示。

    用经PCA降维的数据和未经降维的数据集分别进行贝叶斯网络结构的学习,所用时间如表2所示。

    对所用的贝叶斯网络学习算法进行CI测试,最坏情况下的时间复杂度为O(N4)。由表2可知,采用PCA降维后,算法所用时间约占原构造算法时间的34.58%,贝叶斯网络结构的学习效率有所提高。
    经PCA降维,IRIS数据集的属性由4个减少为3个;ZooData的属性由18个减少到12个;Glass Identification Data的属性由11个减少为8个。属性数量的减少使得网络结构更为简单,并且由表2可以看出,经PCA降维后进行分类的结果准确率不低于不经过降维直接由数据集学习得到的贝叶斯网络分类结果的准确率。
    经PCA降维后的网络结构如图1~图3所示。

    用图1中的结点V4、图2中的结点F13及图3中的结点F8是类别标签结点,其余结点为原数据结点的线性变换,无实际意义。实验2用经过PCA降维后数据构造的贝叶斯网络器(BN)与朴素贝叶斯(NB)分类器、TAN分类器分类对以上3组数据进行分类。分类准确率的比较如表3所示。

    由实验1可知,使用PCA降维后构造的贝叶斯网络与未使用降维数据学习得到的网络分类结果正确率相差不大,而这样构造的网络分类结果比其他分类器正确率高很多,同时使用降维后数据构造的网络还具有结点少、结构简单、学习效率高等优点。

5 结束语
    基于贝叶斯网络结构学习中依赖分析方法需进行指数级的CI测试因而存在结点集较大时计算效率低的缺点,提出了将数据集先经过PCA主元分析的方法降维。减少结点数,再用降维后的数据进行贝叶斯网络结构学习的方法,提高了网络结构学习的效率,并通过提高学习到的网络结构的正确性保证了较好的分类结果。此外。构建的网络还具有结点少、结构简单的特点,减少了网络的复杂性。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

成都2022年10月19日 /美通社/ -- 近期,平安养老险积极筹备个人养老金的产品设计和系统开发工作,发展多样化的养老金融产品,推动商业养老保险、个人养老金、专属商业养老保险等产品供给。 搭养老政策东风 ...

关键字: 温度 BSP 东风 大众

广东佛山2022年10月19日 /美通社/ -- 空间是人居生活的基础单元,承载着生存与活动的最基本功能。而对于理想空间的解构意义却在物理性容器之外,体现出人们对于空间和生活深层关系的思考,同时也塑造着人与空间的新型连接...

关键字: 温度 BSP 智能化 进程

上海2022年10月19日 /美通社/ -- 10月17日晚间,安集科技披露业绩预告。今年前三季度,公司预计实现营业收入7.54亿元至8.33亿元,同比增长60.24%至77.03%;归母净利润预计为1.73亿...

关键字: 电子 安集科技 BSP EPS

北京2022年10月19日 /美通社/ -- 10月18日,北京市经济和信息化局发布2022年度第一批北京市市级企业技术中心创建名单的通知,诺诚健华正式获得"北京市企业技术中心"认定。 北京市企业技...

关键字: BSP ARMA COM 代码

北京2022年10月18日 /美通社/ -- 10月14日,国际数据公司(IDC)发布《2022Q2中国软件定义存储及超融合市场研究报告》,报告显示:2022年上半年浪潮超融合销售额同比增长59.4%,近5倍于...

关键字: IDC BSP 数字化 数据中心

上海2022年10月18日 /美通社/ -- 2022年9月5日,是首都银行集团成立60周年的纪念日。趁着首都银行集团成立60周年与首都银行(中国)在华深耕经营12年的“大日子”,围绕作为外资金融机构对在华战略的构想和业...

关键字: 数字化 BSP 供应链 控制

东京2022年10月18日  /美通社/ -- NIPPON EXPRESS HOLDINGS株式会社(NIPPON EXPRESS HOLDINGS, INC.)旗下集团公司上海通运国际物流有限公司(Nipp...

关键字: 温控 精密仪器 半导体制造 BSP

广州2022年10月18日 /美通社/ -- 10月15日,第 132 届中国进出口商品交易会("广交会")于"云端"开幕。本届广交会上高新技术企业云集,展出的智能产品超过140,...

关键字: 中国智造 BSP 手机 CAN

要问机器人公司哪家强,波士顿动力绝对是其中的佼佼者。近来年该公司在机器人研发方面获得的一些成果令人印象深刻,比如其开发的机器人会后空翻,自主爬楼梯等。这不,波士顿动力又发布了其机器人组团跳男团舞的新视频,表演的机器人包括...

关键字: 机器人 BSP 工业机器人 现代汽车

南京2022年10月17日 /美通社/ -- 日前《2022第三届中国高端家电品牌G50峰会》于浙江宁波落幕,来自两百余名行业大咖、专家学者共同探讨了在形势依然严峻的当下,如何以科技创新、高端化转型等手段,帮助...

关键字: LINK AI BSP 智能家电

通信技术

120595 篇文章

关注

发布文章

编辑精选

技术子站

关闭