当前位置:首页 > 智能硬件 > 智能硬件
[导读]在下述的内容中,小编将会对机器学习的相关消息予以报道,如果机器学习是您想要了解的焦点之一,不妨和小编共同阅读这篇文章哦。

在下述的内容中,小编将会对机器学习的相关消息予以报道,如果机器学习是您想要了解的焦点之一,不妨和小编共同阅读这篇文章哦。

一、3种机器学习监督学习方法

1.支持向量机

支持向量机是追求极致的,它要在所有的可行解里面,找到唯一的最优解。在二维平面里,这个解是一条唯一的线,在三维空间里,这个解是一个唯一的面,那么,在N维空间里,这个解就是唯一的超平面了。而用于寻找这个解的样本点,就称之为支持向量。

核函数是支持向量机里的大杀器,与人们所说的“降维打击”类似,核函数是要通过升维的方式去解决问题。如果在当下的困境里找不到答案,那就尝试在更高的维度里去破局。

2.神经网络

神经网络引入了生物学里神经元的概念。每一个神经元都是简单的,有输入和权重,有阈值和输出,但是用众多神经元搭建起多层网络,网络之间又相互联系时,这个问题就变得复杂了。在2006年后,神经网络转身为深度学习,成就了无数或神秘或伟大的商业故事。

在神经网络的训练过程中,有一个很有意思的事情,就是局部最优和全局最优。模型训练中容易陷入局部最优的困境,停止搜索最优解,就像我们很多时候做事情,只是做好了,但是并不够好。为了解决这个问题,人们设计了模拟退火,随机梯度下降等多种训练策略。

3.集成学习

集成学习的理念,是“好而不同”。对于一个问题,如果通过单一模型始终给不出最优解,不如集成几个好而不同的子模型,可能会获得性能优异的效果。三个臭皮匠,胜过诸葛亮。每个臭皮匠都有不足,但各有各的优点,而诸葛亮作为单一模型已是极致,却仍有局限。

集成学习有两个分支,如果子模型串行生成,则是Boost,如果子模型并行生成,则是Bagging。Boost强调的是一个一个上,针对前一个子模型的缺陷,通过下一个子模型去补足,xgBoost和GBDT都是其中的代表;Bagging强调的则是一起上,群架好过单挑,通过学习不同的样本,生成不同的子模型。Bagging的一个变体随机森林,便是这一类模型的优秀代表。

二、机器学习特征处理

1.特征构建

特征构建是指从原始数据中人工的找出一些具有实际意义的特征。需要花时间去观察原始数据,思考问题的潜在形式和数据结构,对数据敏感性和机器学习实战经验能帮助特征构建。除此之外,属性分割和结合是特征构建时常使用的方法。特征构建是个非常麻烦的问题,书里面也很少提到具体的方法,需要对问题有比较深入的理解。

2.特征抽取

一些观测数据如果直接建模,其原始状态的数据太多。像图像、音频和文本数据,如果将其看做是表格数据,那么其中包含了数以千计的属性。特征抽取是自动地对原始观测降维,使其特征集合小到可以进行建模的过程。通常可采用主成分分析(PCA)、线性判别分析(LDA))等方法;对于图像数据,可以进行线(line)或边缘(edge)的提取;根据相应的领域,图像、视频和音频数据可以有很多数字信号处理的方法对其进行处理。

3.特征选择

不同的特征对模型的准确度的影响不同,有些特征与要解决的问题不相关,有些特征是冗余信息,这些特征都应该被移除掉。特征选择是自动地选择出对于问题最重要的那些特征子集的过程。常用的特征选择方法可以分为3类:过滤式(filter)、包裹式(wrapper)和嵌入式(embedding)。

总的来说,数据会存在各种各样的问题,针对这些问题我们的特征工程给出了相应的解决办法:

1. 特征解释能力不足,我们可以尝试使用特征构建,对数据进行升维来提升特征解释能力;

2. 特征冗余,维度太高,噪声太多,我们可以通过特征抽取和特征选择,来对数据进行降维去噪,提炼特征。当然还有其他的特征处理方法,一般需要根据具体问题而定。

以上便是小编此次想要和大家共同分享的有关机器学习的内容,如果你对本文内容感到满意,不妨持续关注我们网站哟。最后,十分感谢大家的阅读,have a nice day!

声明:该篇文章为本站原创,未经授权不予转载,侵权必究。
换一批
延伸阅读
关闭