当前位置:首页 > 智能硬件 > 人工智能AI
[导读]   毫无疑问,过去两年中,机器学习和人工智能的普及度得到了大幅提升。   如果你想学习机器算法,要从何下手呢?以我为例,我是在哥本哈根留学期间,学习AI课程入门的。我们用的教科书是一本A

  毫无疑问,过去两年中,机器学习和人工智能的普及度得到了大幅提升。

  如果你想学习机器算法,要从何下手呢?以我为例,我是在哥本哈根留学期间,学习AI课程入门的。我们用的教科书是一本AI经典:《Peter Norvig’s ArTIficial Intelligence?—?A Modern Approach》。最近我在继续学习这些,包括在旧金山听了几个关于深度学习的技术演讲,参加机器学习大会上。六月份,我注册了Udacity的Intro to Machine Learning的在线课程,近期已经完成了。这篇文章,我想分享一些我所学到的、最常见的机器学习算法。

  我从这个课程中学到了很多,并决定继续学习这一专业内容。不久前,我在旧金山听了几个关于深度学习、神经网络、数据架构方面的技术演讲,包括在一个机器学习大会上和很多领域知名专家一起。最重要的是,我六月份注册了Udacity 的机器学习入门的在线课程,近期已经完成了。这篇文章,我想分享一些我所学到的、最常见的机器学习算法。

  机器学习算法可以分为三个大类——有监督学习、无监督学习和强化学习。

  有监督学习,对训练有标签的数据有用,但是对于其他没有标签的数据,则需要预估。

  无监督学习,用于对无标签的数据集(数据没有预处理)的处理,需要发掘其内在关系的时候。

  强化学习,介于两者之间,虽然没有精准的标签或者错误信息,但是对于每个可预测的步骤或者行为,会有某种形式的反馈。

  由于我上的是入门课程,我并没有学习强化学习,但是下面10个有监督和无监督学习算法已经足以让你对机器学习产生兴趣。

  监督学习

  1.决策树 (Decision Trees)

  决策树是一个决策支持工具,它用树形的图或者模型表示决策及其可能的后果,包括随机事件的影响、资源消耗、以及用途。请看下图,随意感受一下决策树长这样的:

  

  从商业角度看,决策树就是用最少的Yes/No问题,尽可能地做出一个正确的决策。它让我们通过一种结构化、系统化的方式解决问题,得到一个有逻辑的结论。

  2.朴素贝叶斯分类(Naive Bayes ClassificaTIon)

  朴素贝叶斯分类器是一类简单概率分类器,它基于把贝叶斯定理运用在特征之间关系的强独立性假设上。下图是贝叶斯公式——P(A|B)表示后验概率,P(B|A)表示似然度,P(A)表示类别的先验概率(class prior probability),P(B)表示做出预测的先验概率(predictor prior probability)。

  

  现实生活中的应用例子:

  一封电子邮件是否是垃圾邮件

  一篇文章应该分到科技、政治,还是体育类

  一段文字表达的是积极的情绪还是消极的情绪?

  人脸识别

  3.普通最小二乘回归(Ordinary Least Squares Regression)

  

  如果你学过统计学,你可能听过线性回归。至少最小二乘是一种进行线性回归的方法。你可以认为线性回归就是让一条直线用最适合的姿势穿过一组点。有很多方法可以这样做,普通最小二乘法就像这样——你可以画一条线,测量每个点到这条线的距离,然后加起来。最好的线应该是所有距离加起来最小的那根。

  线性法表示你去建模线性模型,而最小二乘法可以最小化该线性模型的误差。

  4.逻辑回归(LogisTIc Regression)

  

  逻辑回归是一种非常强大的统计方法,可以把有一个或者多个解释变量的数据,建立为二项式类型的模型,通过用累积逻辑分布的逻辑函数估计概率,测量分类因变量和一个或多个独立变量之间的关系。

  通常,回归在现实生活中的用途如下:

  信用评估

  测量市场营销的成功度

  预测某个产品的收益

  特定的某天是否会发生地震

  5.支持向量机(Support Vector Machines)

  

  SVM是一种二分算法。假设在N维空间,有一组点,包含两种类型,SVM生成a(N-1) 维的超平面,把这些点分成两组。比如你有一些点在纸上面,这些点是线性分离的。SVM会找到一个直线,把这些点分成两类,并且会尽可能远离这些点。

  从规模看来,SVM(包括适当调整过的)解决的一些特大的问题有:广告、人类基因剪接位点识别、基于图片的性别检测、大规模图片分类…

  6.集成方法(Ensemble Methods)

  

  集成方法吸纳了很多算法,构建一个分类器集合,然后给它们的预测带权重的进行投票,从而进行分类。最初的集成方法是贝叶斯平均法(Bayesian averaging),但是最近的算法集还包括了纠错输出编码(error-correcTIng output coding) ,bagging和boosting

  那么集成方法如何工作的?为什么它们比单独的模型更好?

  它们均衡了偏差:就像如果你均衡了大量的倾向民主党的投票和大量倾向共和党的投票,你总会得到一个不那么偏颇的结果。

  它们降低了方差:集合大量模型的参考结果,噪音会小于单个模型的单个结果。在金融上,这叫投资分散原则(diversification)——一个混搭很多种股票的投资组合,比单独的股票更少变故。

  它们不太可能过度拟合:如果你有单独的模型不是完全拟合,你结合每个简单方法建模,就不会发生过度拟合(over-fitting)

  无监督学习

  7. 聚类算法(Clustering Algorithms)

  

  聚类就是把一组对象分组化的任务,使得在同一组的对象比起其它组的对象,它们彼此更加相似。

  每种聚类算法都不同,下面是其中一些:

  基于图心(Centroid)的算法

  基于连接的算法

  基于密集度的算法

  概率论

  降维

  神经网络 / 深度学习

  8.主成分分析(Principal Component Analysis)

  

  PCA是一种统计过程,它通过正交变换把一组可能相关联的变量观察,转换成一组线性非相关的变量的值,这些非相关的变量就是主成分。

  PCA的应用包括压缩、简化数据使之易于学习,可视化。需要注意的是,当决定是否用PCA的时候,领域知识特别重要。它不适用于噪音多的数据(所有成分的方差要很高才行)

  9.奇异值分解(Singular Value Decomposition)

  

  线性代数中,SVD是对一个特别复杂的矩阵做因式分解。比如一个m*n的矩阵M,存在一个分解如M = UΣV,其中U和V是酉矩阵,Σ是一个对角矩阵。

  PCA其实是种简单的SVD。在计算机图形领域,第一个脸部识别算法就用了PCA和SVD,用特征脸(eigenfaces)的线性结合表达脸部图像,然后降维,用简单的方法把脸部和人匹配起来。尽管如今的方法更加复杂,依然有很多是依靠类似这样的技术。

  10.独立成分分析(Independent Component Analysis)

  

  ICA 是一种统计技术。它发掘随机变量、测量数据或者信号的集合中隐含的因素。ICA定义了一种通用模型,用于观测到的多变量数据,通常是一个巨大的样本数据库。在这一模型中,假设数据变量是一些未知的、潜在的变量的线性组合,而组合方式也是未知的。同时假设,潜在的变量是非高斯分布且相互独立的,我们称之为观测数据的独立成分(Independent components)。

  ICA与PCA有一定关联,但是一种更加有用的技术,在经典方法完全失效的时候,可以发现数据源中的潜在因素。它的应用包括数字图片,文件数据库,经济指数和心理测量。

  现在可以开始用你对这些算法的理解,去创建机器学习应用,给大家带来更好的体验。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭