当前位置:首页 > 消费电子 > 消费电子
[导读]通过大量的数据,训练出一个能处理此类数据的模型,使得这个模型可以根据已知的数据,准确率很高的判断出未知的数据,从而使得人类能够采取正确的方法去处理某些事情。

机器学习工作流程

机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。

也可以理解为:通过大量的数据,训练出一个能处理此类数据的模型,使得这个模型可以根据已知的数据,准确率很高的判断出未知的数据,从而使得人类能够采取正确的方法去处理某些事情。

1️⃣数据预处理

在数据集中一般:一行数据我们称为一个样本,一列数据我们成为一个特征,有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目标值)。

器学习一般的数据集会划分为两个部分:

✅训练数据:用于训练,构建模型

✅测试数据:在模型检验时使用,用于评估模型是否有效

数据预处理就是对数据进行清洗工作,对空值、乱码进行处理。主要目的就是减少噪音数据对训练数据的影响。

2️⃣特征工程

特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。在同样的算法下特征的选取是不同的,100个人对一件事情会有100种看法,也就有100种特征,最后特征的质量决定模型的好坏。

特征工程需要做的包括:

• 特征提取:将任意数据(如文本或图像)转换为可用于机器学习的数字特征

• 特征预处理:通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程

• 特征降维:指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程部署机器学习的过程涉及多个步骤。首先选择一个模型,针对特定任务加以训练,用测试数据进行验证,然后,将该模型部署到实际系统中并进行监控。在本文中,我们将讨论这些步骤,将每个步骤拆分讲解来介绍机器学习。

机器学习是指在没有明确指令的情况下能够学习和加以改进的系统。这些系统从数据中学习,用于执行特定的任务或功能。在某些情况下,学习,或者更具体地说,训练,是在受监督的方式下进行,当输出不正确时对模型加以调整,使其生成正确的输出。在其他情况下,则实行无监督学习,由系统负责梳理数据来发现以前未知的模式。大多数机器学习模型都是遵循这两种范式(监督学习与无监督学习)。

现在,让我们深入研究“模型”的含义,然后探究数据如何成为机器学习的燃料。

机器学习模型

模型是机器学习解决方案的抽象化表述。模型定义架构,架构经过训练变成产品实现。所以,我们不是部署模型,而是部署经过数据训练的模型的实现(在下一节中有更加详细的介绍)。模型 + 数据 + 训练=机器学习解决方案的实例(图1)。

机器学习解决方案代表一个系统。它们接受输入,在网络中执行不同类型的计算,然后提供输出。输入和输出代表数值型数据,这意味着,在某些情况下,需要转译。例如,将文本数据输入深度学习网络需要将单词编码成数字形式,考虑到可以使用的单词的多样性,该数字形式通常是高维向量。同样,输出可能需要从数字形式转译回文本形式。

机器学习模型有多种类型,如神经网络模型、贝叶斯 (Bayesian) 模型、回归模型、聚类模型等。您选择的模型是基于着手解决的问题。

对于神经网络来说,模型从浅多层网络到深度神经网络,类型丰富,而深度神经网络还包括多层特化神经元(处理单元)。深度神经网络还有一系列基于目标应用的可用模型。例如:

如果您的应用侧重于识别图像中的对象,那么卷积神经网络 (CNN) 就是理想的模型。CNN已被应用于皮肤癌检测,效果优于皮肤科医生的平均水平。

如果您的应用涉及预测或生成复杂序列(如人类语言句子),那么递归神经网络 (RNN) 或长短期记忆网络 (LSTM) 是理想模型。LSTM也已经应用到人类语言的机器翻译中。

如果您的应用涉及用人类语言描述图像内容,可以使用CNN和LSTM的组合(图像输入CNN,CNN的输出代表LSTM的输入,后者发出词汇序列)。

如果您的应用涉及生成现实图像(如风景或人脸),那么生成对抗网络 (GAN) 是当前最先进的模型。

这些模型代表了当今常用的部分深层神经网络架构。深度神经网络深受欢迎,因为它们可以接受非结构化数据,如图像、视频或音频信息。网络中的各层构成一个特征层次结构,使它们能够对非常复杂的信息进行分类。深度神经网络已经在许多问题领域展示出先进的性能。但是像其他机器学习模型一样,它们的准确性依赖于数据。接下来我们就探讨一下这个方面。

数据和训练

无论在运算中,还是在通过模型训练构建机器学习解决方案的过程中,数据皆为驱动机器学习的燃料。对于深度神经网络的训练数据,探索数量和质量前提下的必要数据至关重要。

深度神经网络需要大量数据进行训练;按经验来说,图像分类中每类需要1,000张图像。但具体答案显然取决于模型的复杂度和容错度。实际机器学习解决方案中的一些示例表明,数据集有各种大小。一个面部检测和识别系统需要45万张图像,一个问答聊天机器人需要接受20万个问题和200万个匹配答案的训练。根据要解决的问题,有时较小的数据集也足够。一个情感分析解决方案(根据书面文本确定观点的极性)只需要数万个样本。

数据的质量和数量同等重要。鉴于训练需要大数据集,即使少量的错误训练数据也会导致糟糕的解决方案。根据所需的数据类型,数据可能会经历一个清洗过程。此过程确保数据集一致、没有重复数据且准确、完整(没有无效或不完整数据)。有可以支持此过程的工具。验证数据的偏差也很重要,确保数据不会导致有偏差的机器学习解决方案。

机器学习训练对数值型数据进行运算,因此,根据您的解决方案,可能需要预处理步骤。例如,如果数据是人类语言,其必须首先转译为数字形式才能处理。可以对图像进行预处理以保持一致性。例如,除了其他运算外,输入深度神经网络的图像还需要调整大小和平滑处理,以去除噪声。

机器学习中最大的问题之一是获取数据集来训练机器学习解决方案。根据您的具体问题,这个工作量可能非常大,因为可能没有现成的数据,需要您另外设法获取。

最后,应该分割数据集,分别用作训练数据和测试数据。训练数据用于训练模型,在训练完成后,测试数据用于验证解决方案的准确性(图2)。

有工具来帮助完成这个过程,大多数框架都拥有“分割”功能,用于分割训练和测试数据。现在我们来看一些简化机器学习解决方案构造的框架。

框架

现在,不再需要从头开始构建机器学习模型。您可以使用包含这些模型和其他工具的框架来准备数据和验证您的解决方案。这些框架还提供用于部署解决方案的环境。选择哪个框架通常取决于您的熟悉程度,但在刚开始的时候可以选择一个适合您要使用的应用与模型的框架。

TensorFlow是最好的深度学习框架。它支持所有流行的模型(CNN、RNN、LSTM等),并允许您使用Python或C++进行开发。从高端服务器到移动设备,均可部署TensorFlow解决方案。如果您刚刚上手,TensorFlow是一个不错的起点,它有教程和丰富的文档。

我所理解的机器学习是一种能够实现人工智能的技术,建立能从经验(数据)中进行学习的模型,从而使这个模型可以达到自行处理此类数据的能力。

也可以理解为:通过大量的数据,训练出一个能处理此类数据的模型。使得这个模型可以根据已知的数据,准确率很高的判断出未知的数据,从而使得人类能够采取正确的方法去处理某些事情。

想要了解机器学习你需要知道以下几点:

一、机器学习的流程

从实际的应用场景出发,要训练出来一个能够适应某场景的模型需要经过以下几步:

图1

1. 场景解析场景解析就是将业务逻辑,抽象成为通过算法能够解决的问题。

比如:做一个心脏病预测系统,那么就可以抽象为二分类问题——要么有心脏病,要么没有。然后,根据已有的数据看看有没有目标值,可以判断出:是监督学习还是无监督学习,还是半监督学习。从而,选择出能够处理好此类数据的算法。

(不同场景采用的算法是不同的)高频的有以下几种类型的场景:

分类场景:广告投放预测,网站用户点击预测。

聚类场景:人群划分,产品种类划分。

回归场景

文本分析类场景:新闻的标签提取,文本自动分类和文本关键信息抽取。

关系图算法:社交网络关系,网络关系挖掘和金融风险控制。

模式识别:语音识别,图像识别和手写文字识别。

2. 数据预处理场景解析完,选择适合处理此类数据的算法后,需要对数据进行预处理——就是对数据进行清洗工作,对空值,乱码进行处理。

数据预处理的主要目的就是:减少噪音数据对训练数据的影响。

3. 特征工程特征工程是机器学习中最重要的一部分,因为根据已有的训练数据,可选用的算法是有限的,那么在同样的算法下特征的选取是不同的,100个人对一件事情会有100种看法,也就有100种特征,最后特征的质量决定模型的好坏。特征工程需要做的包括:特征抽象,特征重要性的评估,特征衍生,特征降维。

4. 模拟训练在经过以上过成后,进入训练模块,生成模型。

5. 模型评估对生成模型的成熟度进行评估。

6. 离线/在线服务在实际运用过程中,需要配合调度系统来使用。

案例场景:每天将用户当日新增的数据量流入数据库表里,通过调度系统启用离线训练服务,生成最新的离线模型,然后通过在线预测服务进行实时预测。

7. 数据源结构结构化数据:机构化数据是指以矩阵结构储存的数据。

声明:该篇文章为本站原创,未经授权不予转载,侵权必究。
换一批
延伸阅读

双方的合作促成了尖端人工智能视觉解决方案,提高了效率、连通性和成本效益

关键字: 人工智能 智能家居 机器学习

【2024年4月24日,德国慕尼黑讯】英飞凌科技股份公司(FSE代码:IFX / OTCQX代码:IFNNY)发布全新PSOC™ Edge微控制器(MCU)系列的详细信息,该系列产品的设计针对机器学习(ML)应用进行了优...

关键字: 物联网 机器学习 MCU

TDK株式会社(东京证券交易所代码:6762)新近推出InvenSense SmartEdgeMLTM解决方案,这是一种先进的边缘机器学习解决方案,为用户提供了在可穿戴设备、可听戴设备、增强现实眼镜、物联网 (IoT)...

关键字: 机器学习 物联网 传感器

北京——2024年4月19日 亚马逊云科技宣布,Meta刚刚发布的两款Llama 3基础模型Llama 3 8B和Llama 3 70B现已在Amazon SageMaker JumpStart中提供。这两款模型是一系列...

关键字: 机器学习 基础模型

上海2024年4月16日 /美通社/ -- 4月14日,为期四天的第89届中国国际医疗器械博览会(CMEF)盛大收官。澳鹏Appen很荣幸再次作为唯一的人工智能训练数据参展商参与此次"航母级"规模医疗...

关键字: APP 医疗器械 PEN 模型

2024年4月18日 – 提供超丰富半导体和电子元器件™的业界知名新品引入 (NPI) 代理商贸泽电子 (Mouser Electronics) 很荣幸地宣布与Edge Impulse建立新的全球合作关系。Edge Im...

关键字: 机器学习 MCU CPU

北京——2024年4月18日 西门子中国和亚马逊云科技双方高层在西门子中国北京总部会晤,双方宣布签署战略合作协议,共同成立“联合创新团队”。基于亚马逊云科技在生成式AI领域的领先技术和服务,并结合西门子在工业领域的深厚积...

关键字: 生成式AI 机器学习 大数据

福州2024年4月16日 /美通社/ -- 4月15日,第61届中国高等教育博览会(以下简称“高博会”)于福州隆重开幕。索贝以“视听新体验•数智向未来,让知识传递更加精准高效”为主题,携全新升级的智慧教育资源管理平台、课...

关键字: 模型 数字化 AI算法 质量评估

机器学习作为人工智能领域的重要组成部分,其过程涉及到多个核心环节。本文将详细阐述机器学习的四个主要步骤:数据准备、模型选择、模型训练与评估,以及模型部署与应用,以揭示机器学习从数据到应用的完整流程。

关键字: 数据 人工智能 机器学习

随着信息技术的迅猛发展和大数据时代的到来,机器学习成为了人工智能领域中的核心技术之一。机器学习是通过模拟人类学习行为,使计算机系统能够从数据中自动发现规律、提取特征并进行预测和决策的过程。它在诸多领域取得了广泛的应用,包...

关键字: 计算机 人工智能 机器学习
关闭