原创

怎么做机器学习特征处理?3种机器学习监督学习方法概述!

时间：2022-10-14 09:40:01

关键字：机器学习监督学习特征选择

手机看文章

扫描二维码
随时随地手机看文章

[导读]在下述的内容中，小编将会对机器学习的相关消息予以报道，如果机器学习是您想要了解的焦点之一，不妨和小编共同阅读这篇文章哦。

在下述的内容中，小编将会对机器学习的相关消息予以报道，如果机器学习是您想要了解的焦点之一，不妨和小编共同阅读这篇文章哦。

一、3种机器学习监督学习方法

1.支持向量机

支持向量机是追求极致的，它要在所有的可行解里面，找到唯一的最优解。在二维平面里，这个解是一条唯一的线，在三维空间里，这个解是一个唯一的面，那么，在N维空间里，这个解就是唯一的超平面了。而用于寻找这个解的样本点，就称之为支持向量。

核函数是支持向量机里的大杀器，与人们所说的“降维打击”类似，核函数是要通过升维的方式去解决问题。如果在当下的困境里找不到答案，那就尝试在更高的维度里去破局。

2.神经网络

神经网络引入了生物学里神经元的概念。每一个神经元都是简单的，有输入和权重，有阈值和输出，但是用众多神经元搭建起多层网络，网络之间又相互联系时，这个问题就变得复杂了。在2006年后，神经网络转身为深度学习，成就了无数或神秘或伟大的商业故事。

在神经网络的训练过程中，有一个很有意思的事情，就是局部最优和全局最优。模型训练中容易陷入局部最优的困境，停止搜索最优解，就像我们很多时候做事情，只是做好了，但是并不够好。为了解决这个问题，人们设计了模拟退火，随机梯度下降等多种训练策略。

3.集成学习

集成学习的理念，是“好而不同”。对于一个问题，如果通过单一模型始终给不出最优解，不如集成几个好而不同的子模型，可能会获得性能优异的效果。三个臭皮匠，胜过诸葛亮。每个臭皮匠都有不足，但各有各的优点，而诸葛亮作为单一模型已是极致，却仍有局限。

集成学习有两个分支，如果子模型串行生成，则是Boost，如果子模型并行生成，则是Bagging。Boost强调的是一个一个上，针对前一个子模型的缺陷，通过下一个子模型去补足，xgBoost和GBDT都是其中的代表;Bagging强调的则是一起上，群架好过单挑，通过学习不同的样本，生成不同的子模型。Bagging的一个变体随机森林，便是这一类模型的优秀代表。

二、机器学习特征处理

1.特征构建

特征构建是指从原始数据中人工的找出一些具有实际意义的特征。需要花时间去观察原始数据，思考问题的潜在形式和数据结构，对数据敏感性和机器学习实战经验能帮助特征构建。除此之外，属性分割和结合是特征构建时常使用的方法。特征构建是个非常麻烦的问题，书里面也很少提到具体的方法，需要对问题有比较深入的理解。

2.特征抽取

一些观测数据如果直接建模，其原始状态的数据太多。像图像、音频和文本数据，如果将其看做是表格数据，那么其中包含了数以千计的属性。特征抽取是自动地对原始观测降维，使其特征集合小到可以进行建模的过程。通常可采用主成分分析(PCA)、线性判别分析(LDA))等方法;对于图像数据，可以进行线(line)或边缘(edge)的提取;根据相应的领域，图像、视频和音频数据可以有很多数字信号处理的方法对其进行处理。

3.特征选择

不同的特征对模型的准确度的影响不同，有些特征与要解决的问题不相关，有些特征是冗余信息，这些特征都应该被移除掉。特征选择是自动地选择出对于问题最重要的那些特征子集的过程。常用的特征选择方法可以分为3类：过滤式(filter)、包裹式(wrapper)和嵌入式(embedding)。

总的来说，数据会存在各种各样的问题，针对这些问题我们的特征工程给出了相应的解决办法：

1. 特征解释能力不足，我们可以尝试使用特征构建，对数据进行升维来提升特征解释能力;

2. 特征冗余，维度太高，噪声太多，我们可以通过特征抽取和特征选择，来对数据进行降维去噪，提炼特征。当然还有其他的特征处理方法，一般需要根据具体问题而定。

以上便是小编此次想要和大家共同分享的有关机器学习的内容，如果你对本文内容感到满意，不妨持续关注我们网站哟。最后，十分感谢大家的阅读，have a nice day!