原创

机器学习完整流程

时间：2024-03-31 16:00:01

关键字：机器学习特征选择特征提取

手机看文章

扫描二维码
随时随地手机看文章

[导读]对数据进行预处理和特征工程，包括数据清洗、归一化/标准化、特征选择、特征提取、生成新特征等，以使数据适合后续建模。

一个完整的机器学习项目通常包括以下步骤：

1. 确定项目目标：明确项目的目标，了解需要解决的问题和期望的输出。

2. 数据收集与探索：收集和获取相关的数据，并进行数据的探索与理解。包括数据的质量检查、缺失值、异常值的处理，统计特征分析等。

3. 数据预处理与特征工程：对数据进行预处理和特征工程，包括数据清洗、归一化/标准化、特征选择、特征提取、生成新特征等，以使数据适合后续建模。

4. 模型选择与训练：根据问题的性质选择合适的机器学习模型，将数据分为训练集和测试集，使用训练集对模型进行训练和参数调优。

5. 模型评估与调优：使用测试集或交叉验证进行模型性能评估，在评估指标的基础上对模型进行调优，包括调整模型参数、尝试不同的算法和模型架构等。

6. 模型部署与应用：将训练好的模型部署到实际应用中，以解决实际问题。这可能涉及将模型集成到应用程序、服务或生产环境中，并确保模型的效果和表现符合预期。

7. 持续监测与维护：对模型进行监测和维护，跟踪模型在实际应用中的表现并及时调整或更新模型，以保持模型的性能和效果。

8. 文档与总结：记录和整理项目的过程、方法和结果，撰写项目报告和总结，以便于后续回顾和复现项目。

这是一个常见的机器学习项目流程，具体的步骤和流程可以根据不同的项目和需求进行调整和扩展。

部署机器学习的过程涉及多个步骤。首先选择一个模型，针对特定任务加以训练，用测试数据进行验证，然后，将该模型部署到实际系统中并进行监控。在本文中，我们将讨论这些步骤，将每个步骤拆分讲解来介绍机器学习。

机器学习是指在没有明确指令的情况下能够学习和加以改进的系统。这些系统从数据中学习，用于执行特定的任务或功能。在某些情况下，学习，或者更具体地说，训练，是在受监督的方式下进行，当输出不正确时对模型加以调整，使其生成正确的输出。在其他情况下，则实行无监督学习，由系统负责梳理数据来发现以前未知的模式。大多数机器学习模型都是遵循这两种范式(监督学习与无监督学习)。

现在，让我们深入研究“模型”的含义，然后探究数据如何成为机器学习的燃料。

机器学习模型

模型是机器学习解决方案的抽象化表述。模型定义架构，架构经过训练变成产品实现。所以，我们不是部署模型，而是部署经过数据训练的模型的实现(在下一节中有更加详细的介绍)。模型 + 数据 + 训练=机器学习解决方案的实例(图1)。

图1：从机器学习模型到解决方案。(图源：作者)

机器学习解决方案代表一个系统。它们接受输入，在网络中执行不同类型的计算，然后提供输出。输入和输出代表数值型数据，这意味着，在某些情况下，需要转译。例如，将文本数据输入深度学习网络需要将单词编码成数字形式，考虑到可以使用的单词的多样性，该数字形式通常是高维向量。同样，输出可能需要从数字形式转译回文本形式。

机器学习模型有多种类型，如神经网络模型、贝叶斯 (Bayesian) 模型、回归模型、聚类模型等。您选择的模型是基于着手解决的问题。

对于神经网络来说，模型从浅多层网络到深度神经网络，类型丰富，而深度神经网络还包括多层特化神经元(处理单元)。深度神经网络还有一系列基于目标应用的可用模型。例如：

如果您的应用侧重于识别图像中的对象，那么卷积神经网络 (CNN) 就是理想的模型。CNN已被应用于皮肤癌检测，效果优于皮肤科医生的平均水平。

如果您的应用涉及预测或生成复杂序列(如人类语言句子)，那么递归神经网络 (RNN) 或长短期记忆网络 (LSTM) 是理想模型。LSTM也已经应用到人类语言的机器翻译中。

如果您的应用涉及用人类语言描述图像内容，可以使用CNN和LSTM的组合(图像输入CNN，CNN的输出代表LSTM的输入，后者发出词汇序列)。

如果您的应用涉及生成现实图像(如风景或人脸)，那么生成对抗网络 (GAN) 是当前最先进的模型。

这些模型代表了当今常用的部分深层神经网络架构。深度神经网络深受欢迎，因为它们可以接受非结构化数据，如图像、视频或音频信息。网络中的各层构成一个特征层次结构，使它们能够对非常复杂的信息进行分类。深度神经网络已经在许多问题领域展示出先进的性能。但是像其他机器学习模型一样，它们的准确性依赖于数据。接下来我们就探讨一下这个方面。

数据和训练

无论在运算中，还是在通过模型训练构建机器学习解决方案的过程中，数据皆为驱动机器学习的燃料。对于深度神经网络的训练数据，探索数量和质量前提下的必要数据至关重要。

深度神经网络需要大量数据进行训练;按经验来说，图像分类中每类需要1,000张图像。但具体答案显然取决于模型的复杂度和容错度。实际机器学习解决方案中的一些示例表明，数据集有各种大小。一个面部检测和识别系统需要45万张图像，一个问答聊天机器人需要接受20万个问题和200万个匹配答案的训练。根据要解决的问题，有时较小的数据集也足够。一个情感分析解决方案(根据书面文本确定观点的极性)只需要数万个样本。

数据的质量和数量同等重要。鉴于训练需要大数据集，即使少量的错误训练数据也会导致糟糕的解决方案。根据所需的数据类型，数据可能会经历一个清洗过程。此过程确保数据集一致、没有重复数据且准确、完整(没有无效或不完整数据)。有可以支持此过程的工具。验证数据的偏差也很重要，确保数据不会导致有偏差的机器学习解决方案。

机器学习训练对数值型数据进行运算，因此，根据您的解决方案，可能需要预处理步骤。例如，如果数据是人类语言，其必须首先转译为数字形式才能处理。可以对图像进行预处理以保持一致性。例如，除了其他运算外，输入深度神经网络的图像还需要调整大小和平滑处理，以去除噪声。

机器学习中最大的问题之一是获取数据集来训练机器学习解决方案。根据您的具体问题，这个工作量可能非常大，因为可能没有现成的数据，需要您另外设法获取。

最后，应该分割数据集，分别用作训练数据和测试数据。训练数据用于训练模型，在训练完成后，测试数据用于验证解决方案的准确性(图2)。

图2：分割数据集分别用于训练和验证。(图源：作者)

有工具来帮助完成这个过程，大多数框架都拥有“分割”功能，用于分割训练和测试数据。现在我们来看一些简化机器学习解决方案构造的框架。

框架

现在，不再需要从头开始构建机器学习模型。您可以使用包含这些模型和其他工具的框架来准备数据和验证您的解决方案。这些框架还提供用于部署解决方案的环境。选择哪个框架通常取决于您的熟悉程度，但在刚开始的时候可以选择一个适合您要使用的应用与模型的框架。

orflow/ >TensorFlow是最好的深度学习框架。它支持所有流行的模型(CNN、RNN、LSTM等)，并允许您使用Python或C++进行开发。从高端服务器到移动设备，均可部署TensorFlow解决方案。如果您刚刚上手，TensorFlow是一个不错的起点，它有教程和丰富的文档。

CAFFE最初是一个学术项目，但在发布到开源后，已经发展成为一个流行的深度学习框架。CAFFE采用C++编写，但也支持Python模型开发。同TensorFlow一样，它也支持广泛的深度学习模型。

PyTorch的框架中。PyTorch是另一个很好的选择，它基于丰富的可用信息，包括构建不同类型解决方案的实践教程。

R语言和环境是机器学习和数据科学的流行工具。其为交互式工具，可帮助您逐步构建解决方案的原型，同时分阶段查看结果。有了Keras(一个开源的神经网络库)，您可以用极少量的开发投入来构建CNN和RNN。

我所理解的机器学习是一种能够实现人工智能的技术，建立能从经验(数据)中进行学习的模型，从而使这个模型可以达到自行处理此类数据的能力。

也可以理解为：通过大量的数据，训练出一个能处理此类数据的模型。使得这个模型可以根据已知的数据，准确率很高的判断出未知的数据，从而使得人类能够采取正确的方法去处理某些事情。

想要了解机器学习你需要知道以下几点：

一、机器学习的流程

从实际的应用场景出发，要训练出来一个能够适应某场景的模型需要经过以下几步：

图1

1. 场景解析场景解析就是将业务逻辑，抽象成为通过算法能够解决的问题。

比如：做一个心脏病预测系统，那么就可以抽象为二分类问题——要么有心脏病，要么没有。然后，根据已有的数据看看有没有目标值，可以判断出：是监督学习还是无监督学习，还是半监督学习。从而，选择出能够处理好此类数据的算法。

(不同场景采用的算法是不同的)高频的有以下几种类型的场景：

分类场景：广告投放预测，网站用户点击预测。

聚类场景：人群划分，产品种类划分。

回归场景

文本分析类场景：新闻的标签提取，文本自动分类和文本关键信息抽取。

关系图算法：社交网络关系，网络关系挖掘和金融风险控制。

模式识别：语音识别，图像识别和手写文字识别。

2. 数据预处理场景解析完，选择适合处理此类数据的算法后，需要对数据进行预处理——就是对数据进行清洗工作，对空值，乱码进行处理。

数据预处理的主要目的就是：减少噪音数据对训练数据的影响。

3. 特征工程特征工程是机器学习中最重要的一部分，因为根据已有的训练数据，可选用的算法是有限的，那么在同样的算法下特征的选取是不同的，100个人对一件事情会有100种看法，也就有100种特征，最后特征的质量决定模型的好坏。特征工程需要做的包括：特征抽象，特征重要性的评估，特征衍生，特征降维。

4. 模拟训练在经过以上过成后，进入训练模块，生成模型。

5. 模型评估对生成模型的成熟度进行评估。

6. 离线/在线服务在实际运用过程中，需要配合调度系统来使用。

案例场景：每天将用户当日新增的数据量流入数据库表里，通过调度系统启用离线训练服务，生成最新的离线模型，然后通过在线预测服务进行实时预测。

7. 数据源结构结构化数据：机构化数据是指以矩阵结构储存的数据。

数据库里的数据就是以这种结构存在，可以通过二维结构来显示，如下图：

图2结构化数据中，有两个重要的概念需要介绍一下：特征列和目标列。

上图里age，sex，cp列都是特征列，ifhealth是目标列。

非结构化数据：典型的非结构化数据是图像，文本，语音等文件。这些数据不能以矩阵的结构储存，目前的做法也是通过把非结构化的数据转化为二进制储存格式。半结构化数据：半结构化数据是指按照一定的结构储存，但不一定是二维的数据库行存储形态的数据。还有一种是以二维数据形态储存的，但某些字段是文本类型，某些字段是数值类型的