人工智能和机器学习中的算法有哪些?
扫描二维码
随时随地手机看文章
人工智能(Artificial Intelligence),英文缩写为AI。是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等 [128]。人工智能大模型带来的治理挑战也不容忽视。 [39]马斯克指出,在人工智能机器学习面具之下的本质仍然是统计。 [33]营造良好创新生态,需做好前瞻研究,建立健全保障人工智能健康发展的法律法规、制度体系、伦理道德。 [39]着眼未来,在重视防范风险的同时,也应同步建立容错、纠错机制,努力实现规范与发展的动态平衡。 [39]2024年12月20日,“人工智能”当选为汉语盘点2024年度国际词 [59]。当地时间2025年1月13日,美国拜登政府发布《人工智能扩散出口管制框架》,将对出口到全球的人工智能技术和GPU都进行三个级别的出口管制 [63-64]。1月14日,中国外交部发言人郭嘉昆表示:坚决反对美方在AI领域也搞“三六九等” [65]。截至2024年12月,中国有3.31亿人表示自己听说过生成式人工智能产品,占整体人口的23.5%;有2.49亿人表示自己使用过生成式人工智能产品,占整体人口的17.7%。在生成式人工智能用户中,利用生成式人工智能产品回答问题的用户最为广泛,占比达77.6%;将生成式人工智能产品作为办公助手的用户占比达45.5% [66]。
当今,人工智能(Artificial Intelligence)已经深刻改变了人类生活的方方面面,并且在未来仍然会继续发挥越来越重要的影响力。
“人工智能”这一概念在1956年于美国达特茅斯学院举办的一次学术集会上被首次提出,自此开启了人工智能研究的新纪元。自此之后,人工智能在曲折中不断发展前进。
1986年,神经网络之父Geoffrey Hinton提出了适用于多层感知机(Multilayer Perceptron,MLP)的反向传播(Back propagation, BP)算法,并且使用Sigmoid函数实现非线性映射,有效解决了非线性分类和学习问题。
1989年,YannLeCun设计了第一个卷积神经网络,并将其成功应用于手写邮政编码识别任务中。
20世纪90年代,Cortes等人提出支持向量机(Support Vector Machine, SVM)模型,随后SVM迅速发展成为机器学习的代表性技术之一,在文本分类、手写数字识别、人脸检测和生物信息处理等方面取得了巨大成功。
进入21世纪,随着互联网技术的发展与计算机硬件系统性能的提高,人工智能迎来了新的重大发展机遇。特别是2011年以来,以深度神经网络为代表的深度学习技术高速发展,人类在通向人工智能的道路上接连实现了许多重大突破。
简单来说,算法是一组明确定义的步骤,需要按照顺序执行以达到计划的结果。特别是,它用于求解数学方程。算法可以分为三个广泛的组成部分:
输入:在问题开始前就已知的信息。
算法:按照步骤一步一步地执行的序列。
输出:如果严格遵循序列中的所有步骤,则会出现预期结果。
在科技世界之外,一个类似于算法系统的例子是“烹饪”。你有你的输入(食材、配料),你有你的算法(或多或少需要遵循的操作步骤),你有你的输出(一道你期望中的美食)。
算法是我们数字生活的原子结构的一部分,你使用的任何计算机程序、手机APP都会运行多个算法来执行其功能。你网页浏览器到文字处理器,再到从Windows 3.0开始就附带的纸牌游戏,每一个都依靠算法运行。
从根本上来说,人工智能是一种计算机程序。这意味着,和普通的电脑程序、游戏一样,你遇到的任何 AI 或机器学习 (ML) 解决方案都将从头开始使用算法构建。
人工智能和机器学习中的算法的作用是可变的。从广义上讲,它们定义了人工智能在处理和分析数据时将使用的规则、条件和方法。这可以像定义人工智能处理单张图片所需的步骤一样简单,也可以让人工智能在包含数十万张图片的数据集中过滤掉带有狗的图片。
分类算法:一种用于预测物品所属的类别或类的机器学习类型。比如我们可以对人工智能进行编程,以区分垃圾邮件和您实际需要的邮件。以下是在AI和机器学习中使用的一些分类算法的示例。
1、二元逻辑回归
二元逻辑回归可以预测二元结果,例如是/否、通过/不通过。其他形式的逻辑回归,如多项式回归,可以预测三个或更多可能的结果。逻辑回归通常用于疾病预测、欺诈检测和客户流失预测等案例中,可以利用其数据集来评估风险。
2、朴素贝叶斯
朴素贝叶斯是一种基于将独立假设纳入模型的概率算法,意味着它在模型中假设数据集中的两个测量没有关联,也不会相互影响。这就是为什么它被称为"朴素"。它通常用于文本分析和分类模型,可以将单词和短语分类到指定的类别中。
3、K最近邻(k-NN)
除了有时用于解决回归问题外,k最近邻通常用于解决分类问题。在解决分类问题时,它将数据点分隔成多个类别,并在平面上预测新数据点的类别标签。根据周围所代表的类别标签最常出现的情况,新的数据点被赋予一个新的分类。k-NN也被称为"惰性学习"算法,这意味着它不需要完整的训练步骤,而只保存一个训练数据集。
4、决策树
决策树是一种监督学习算法,也可用于分类问题和回归问题。之所以被称为"树",是因为它具有层次结构。从根节点开始,它分支出更小的内部节点或决策节点,在这些节点中进行评估以产生由终端节点或叶节点表示的子集。
比如从根节点开始分类武术,然后分成注重打击的武术和注重摔跤的武术的内部节点。这些内部节点可以再分成特定的武术,如拳击、柔术和泰拳的终端节点。这些算法非常适合数据挖掘和知识发现任务,因为它们易于解释,并且只需要很少的数据准备就可以部署。
5、随机森林
随机森林算法由里奥•布雷曼和阿黛尔·卡特勒发明。它利用多个决策树的输出来产生预测结果。与决策树类似,随机森林既可用于解决分类问题,也可用于解决回归问题。每棵树都由从训练数据集中抽取的数据样本组成,使用带替换的抽样方法进行抽样。这为决策树增加了随机性,即使它们来自完全相同的数据集。
在解决分类问题时,根据这些随机决策树的输出来确定多数票。例如,假设有10棵决策树专门用于确定一件连衣裙的颜色,三组说它是蓝色,两组说它是黑色,四组说它是粉色,一组说它是红色。那么该连衣裙将被归类为粉色,因为粉色获得了4票的多数票。
随机森林是金融领域机器学习模型的首选算法,因为它可以减少预处理和数据管理任务所需的时间。欺诈检测、期权定价和客户信用风险评估都是它在金融领域中使用的实例。
人工智能算法同时接受输入和输出,并使用预测模式开发逻辑,当它基于该逻辑接收到新输入时,它将为您提供新输出。人工智能算法生成的逻辑使它与传统算法有所不同。
传统算法:
传统算法以代码形式获取一些输入和一些逻辑,并为您提供输出。这些都是确定的没有预测成分。此输出取决于算法中描述的步骤(代码)。
人工智能 AI算法从数据中学习并提出独特的解决方案,而传统算法则在一组预定义的准则上运行,制定解决方案。
数据,是AI世界的基石,就如同我们日常学习所需要的各种资料。想象一下,你要学习绘画,那画册、教程、名家作品等就是你学习的“数据”。AI也一样,它通过大量的数据来学习和认识这个世界。这些数据形式多样,可能是文本,比如书籍、新闻;可能是图像,像照片、绘画;也可能是声音,例如音乐、语音;甚至是视频,包含着丰富的视觉和听觉信息。
优质的数据对于AI的重要性,怎么强调都不为过。如果把AI比作一个学生,那么优质数据就是精心编写的教材。以图像识别AI为例,假如要训练一个识别水果的AI模型,给它提供清晰、准确标注的各种水果图片,它就能很好地学习到不同水果的特征,像苹果的圆润、香蕉的修长、橙子的橙黄等。当面对新的水果图片时,它就能凭借之前学到的知识准确判断出这是什么水果。但要是提供的数据中存在错误标注,比如把草莓标注成樱桃,那AI就会被误导,在识别时出现错误。
在现实生活中,数据的获取和质量把控面临着诸多挑战。随着互联网的发展,数据量呈爆炸式增长,这看似是好事,可其中也夹杂着大量的噪声数据、重复数据和低质量数据。就好比在一个巨大的图书馆里,既有珍贵的经典著作,也有一些粗制滥造的书籍。为了让AI学到有用的知识,我们需要对数据进行清洗、筛选和标注,这个过程就像从海量书籍中挑选出真正有价值的部分,并给它们贴上准确的标签。
例如,在医疗领域,AI要辅助医生进行疾病诊断,就需要大量准确的病历数据、医学影像数据等。这些数据不仅要准确记录患者的症状、检查结果,还要经过专业医生的标注,才能成为AI学习的优质素材。只有这样,AI才能在面对新的患者时,给出准确的诊断建议。