当前位置:首页 > 智能硬件 > 人工智能AI
[导读]1980年机器学习作为一支独立的力量登上了历史舞台。在这之后的10年里出现了一些重要的方法和理论,典型的代表是:分类与回归树(CART,1984)、反向传播算法(1986)、卷积神经网络(1989)。

1980年机器学习作为一支独立的力量登上了历史舞台。在这之后的10年里出现了一些重要的方法和理论,典型的代表是:分类与回归树(CART,1984)、反向传播算法(1986)、卷积神经网络(1989)。

从1990到2012年,机器学习逐渐走向成熟和应用,在这20多年里机器学习的理论和方法得到了完善和充实,可谓是百花齐放的年代。代表性的重要成果有:支持向量机(SVM,1995)、AdaBoost算法(1997)、循环神经网络和LSTM(1997)、流形学习(2000)、随机森林(2001)。

下面我们对部分机器学习代表算法进行介绍。

⚫线性回归

在机器学习中,我们有一组输入变量(x)用于确定输出变量(y)。输入变量和输出变量之间存在某种关系,机器学习的目标是量化这种关系。

在线性回归中,输入变量(x)和输出变量(y)之间的关系表示为y=ax+b的方程。因此,线性回归的目标是找出系数a和b的值。这里,a是直线的斜率,b是直线的截距。上图显示了数据集的x和y值,线性回归的目标是拟合最接近大部分点的线。

⚫分类与回归树(CART)

CART是决策树的一个实现方式,由ID3,C4.5演化而来,是许多基于树的bagging、boosting模型的基础。CART可用于分类与回归。

CART是在给定输入随机变量x条件下输出随机变量y的条件概率分布,与ID3和C4.5的决策树不同的是,ID3和C4.5生成的决策树可以是多叉的,每个节点下的叉数由该节点特征的取值种类而定,比如特征年龄分为(青年,中年,老年),那么该节点下可分为3叉。而CART的假设决策树为二叉树,内部结点特征取值为“是”和“否”。左分支取值为“是”,右分支取值为“否”。这样的决策树等价于递归地二分每一个特征,将输入空间划分为有限个单元,并在这些单元上预测概率分布,也就是在输入给定的条件下输出条件概率分布。

⚫随机森林(Random Forest)

随机森林指的是利用多棵决策树对样本进行训练并预测的一种分类器。它包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林是一种灵活且易于使用的机器学习算法,即便没有超参数调优,也可以在大多数情况下得到很好的结果。随机森林也是最常用的算法之一,因为它很简易,既可用于分类也能用于回归。

其基本的构建算法过程如下:

1)用N来表示训练用例(样本)的个数,M表示特征数目。

2)输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M。

3)从N个训练用例(样本)中以有放回抽样的方式取样N次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。

4)对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征,计算其最佳的分裂方式。

5)每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后被采用。

⚫逻辑回归

逻辑回归最适合二进制分类(y=0或1的数据集,其中1表示默认类)例如:在预测事件是否发生时,发生的事件被分类为1(在预测人会生病或不生病,生病的实例记为1)。它是以其中使用的变换函数命名的,称为逻辑函数h(x)=1/(1+e-x),它是一个S形曲线。

在逻辑回归中,输出是以缺省类别的概率形式出现的。因为这是一个概率,所以输出在0-1的范围内。输出(y值)通过对数转换x值,使用对数函数h(x)=1/(1+e-x)来生成,然后应用一个阈值来强制这个概率进入二元分类。

朴素贝叶斯(Naive Bayesian)

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。

通过以上定理和“朴素”的假定,我们知道:

P(Category|Document)=P(Document|Category)*P(Category)/P(Document)

朴素贝叶斯的基本方法:在统计数据的基础上,依据条件概率公式,计算当前特征的样本属于某个分类的概率,选择最大的概率分类。

对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率。哪个概率最大,就认为此待分类项属于哪个类别。其计算流程表述如下:

1)x={a1,a2,...,am}为待分类项,每个ai为x的一个特征属性

2)有类别集合C={y1,y2,...,yn}

3)计算P(y1|x),P(y2|x),...,P(yn|x)

4)如果P(yk|x)=max{P(y1|x)

⚫k最近邻(kNN)

kNN(k-Nearest Neighbor)的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。kNN方法在做类别决策时,只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

今天,小编将在这篇文章中为大家带来机器学习的有关报道,通过阅读这篇文章,大家可以对它具备清晰的认识,主要内容如下。

关键字: 机器学习 TensorFlow PyTorch

在当今大数据和人工智能时代,机器学习作为核心的技术驱动力,正以前所未有的速度改变着我们的生活和工作方式。从基础的数据分析到复杂的决策支持系统,机器学习模型的成功构建和应用离不开一套严谨的流程。本文将详尽阐述机器学习过程中...

关键字: 机器学习 人工智能

机器学习作为人工智能领域的核心技术,其应用日益广泛,从搜索引擎优化到医疗诊断,从金融风控到自动驾驶等众多领域均发挥着重要作用。深入理解并掌握机器学习的关键步骤是成功构建高效模型和解决方案的基础。本文将详细阐述机器学习的主...

关键字: 机器学习 人工智能

本文中,小编将对机器学习予以介绍,如果你想对它的详细情况有所认识,或者想要增进对它的了解程度,不妨请看以下内容哦。

关键字: 机器学习 深度学习

在这篇文章中,小编将为大家带来机器学习的相关报道。如果你对本文即将要讲解的内容存在一定兴趣,不妨继续往下阅读哦。

关键字: 机器学习 数据分析

北京——2024年3月27日,亚马逊云科技正式宣布,将与埃森哲、人工智能公司Anthropic展开全球合作,帮助企业,尤其是医疗健康、公共服务、银行和保险等受到强监管的行业,引入并规模化定制生成式AI技术,在追求创新、优...

关键字: 生成式AI 加速器 机器学习

台湾新竹 – 2024年3月26日 – 新唐科技宣布推出基于微控制器的终端AI平台,使AI生态系扩展至微控制器领域。此解决方案是基于新唐全新架构设计的微控制器和微处理器,包括NuMicro® MA35D1、NuMicro...

关键字: AI 智能家居 机器学习

今天,小编将在这篇文章中为大家带来机器学习的有关报道,通过阅读这篇文章,大家可以对它具备清晰的认识,主要内容如下。

关键字: 机器学习 数据挖掘

数据科学和机器学习将是下述内容的主要介绍对象,通过这篇文章,小编希望大家可以对它们的相关情况以及信息有所认识和了解,详细内容如下。

关键字: 机器学习 数据科学

在这篇文章中,小编将对机器学习的相关内容和情况加以介绍以帮助大家增进对它的了解程度,和小编一起来阅读以下内容吧。

关键字: 机器学习 特征提取 求值算子
关闭