当前位置:首页 > 工业控制 > 工业控制
[导读]何为对齐?它是在机器学习,尤其是大模型技术发展过程中出现的。《人机对齐》一书认为,“如何防止这种灾难性的背离——如何确保这些模型捕捉到我们的规范和价值观。

何为对齐?它是在机器学习,尤其是大模型技术发展过程中出现的。《人机对齐》一书认为,“如何防止这种灾难性的背离——如何确保这些模型捕捉到我们的规范和价值观,理解我们的意思或意图,最重要的是,以我们想要的方式行事——已成为计算机科学领域最核心、最紧迫的问题之一。这个问题被称为对齐问题(the alignment problem)”。也就是说,对齐意味着让机器学习模型“捕捉”人类的规范或价值观。

“捕捉”与“灌输”相对,此时AI遵循的规范来自机器学习,而非工程师的编程输入。通过大量学习人类行为,AI“搞清楚”人类行为规则,然后按照规则来行事。因此,对齐问题起码可以一分为二,即对齐什么和如何对齐。

在很多人看来,包括“AI发展的有限主义者”(强调AI发展的有限性和受控性),“对齐什么”这一问题无法完全澄清。

首先,人类并没有统一的价值观。生活在不同的国家、地区,不同传统、文化下的不同性别、阶层的人,对同一现象存在不同的价值判断。比如,面对新冠病毒肆虐,有的人认为保全生命最重要,有的人认为自由活动更重要。大模型究竟要学习谁的行动规则呢?

其次,人类的主流价值观不断在变化。比如,一百多年前一夫多妻制在中国流行,现在则属于重婚的犯罪行为。那么,我们要给大模型输入什么时间段的资料以供学习呢?

再次,规则存在应然与实然的偏差。比如,男女平等是社会提倡的价值观,但在现实中性别歧视的现象并不少。如果AI学习真实案例,很可能成为性别歧视主义者。此类问题被称为大模型的代表性问题,在实践中屡见不鲜。

最后,有些AI如机器宠物狗,它应该与宠物狗对齐,而不是与人对齐。否则,它成了狗形人,拥有它并没有养宠物的乐趣。换句话说,不是所有AI均需和人类对齐的。

因此,“对齐什么”问题是“人类、社会和政治问题,机器学习本身无法解决”。对齐什么的问题,本质上是以数据方法或统计方法厘清复杂的人类规则和价值观的问题。

规则学习是从训练数据中学习一组用于对未见示例进行判别的规则。

一条规则形如: ⊕←�1\and…\and��L是规则体中逻辑文字的个数,称为规则长度。 ⊕ 同样是逻辑文字,用来表示规则判定的目标类别或概念。

数理逻辑具有极强的表达能力,绝大多数人类知识都能用数理逻辑进行简单的刻画和表达。规则学习能更自然地在学习过程中引入领域知识。

规则集合中地每条规则都可看作一个子模型,规则集合是这些子模型地一个集成。当同一个示例被判别结果不同的多条规则覆盖时,则称发生了冲突。

解决冲突的方法:投票法、排序法、元规则法。元规则法根据领域知识事先设定,即关于规则的规则。

在训练集学得的规则集合也许不能覆盖所有可能的未见示例,因此规则学习算法通常需要设置一条默认规则。

规则分为命题规则和一阶规则:

命题规则是由原子问题和逻辑连接词(与或非蕴含)构成的简单陈述句;

一阶规则的基本成分是能描述事物属性或关系的原子公式。例如父子关系”父亲(X,Y)“等, X和Y称为逻辑变量,\exist,∀ 用于限定变量的取值范围,称为量词。一阶规则能表达复杂的关系,因此称为关系型规则。

简单地把属性当作谓词来定义示例与属性值之间的关系,则命题规则改写为一阶规则。命题规则是一阶规则的特例。

序贯覆盖

规则学习的目标是产生一个能覆盖进行可能多的样例的规则集,最直接的做法是序贯覆盖,即逐条归纳:在训练集上学到一条规则,就将该规则覆盖的训练样例去除,然后剩下的训练样例组成训练集重复上述过程。由于每一次只处理一部分数据,也成为分治策略。

最简单的方法:从空规则 ⊕← 开始,将正例类别作为规则头,再逐个遍历训练集中每个属性及取值,尝试将其作为逻辑文字增加到规则体中。若能使当前规则体仅覆盖正例,则由此产生一条规则,然后去除已被覆盖的正例并基于剩余样本产生下一条规则。

上面的方法基于穷尽搜索的方法在属性和候选值较多时会由于组合爆炸不可行。现实任务中一般由两种策略产生规则:自顶向下和自底向上。

自顶向下亦称生成-测试,从较一般的规则逐渐添加新文字以缩小规则覆盖范围,称为特化;自底向上亦称数据驱动,从比较特殊的规则开始删除文字扩大规则覆盖范围,直到满足条件为止。

前者通常能产生泛化性能好的规则;后者更适用于训练样本较少的情形。

通常采用第一种策略,而第二种策略在一阶规则学习这类假设空间复杂的任务上使用较多。

规则生成过程中涉及一个评估规则优劣的标准。可以先考虑准确率,在考虑属性次序。

由于序贯覆盖法简单有效。推广到多分类:当学习关于第c类的规则时,将属于类别c的样本作为正例,其他作为反例。

剪枝优化

规则生成本质是一个贪心搜索过程,需要一定的机制缓解过拟合的风险,最常见的做法是剪枝,分为预剪枝和后剪枝。

预剪枝CN2

预剪枝可以借助显著性检验来进行,例如CN2算法。

假设用规则集进行预测必须显著优于直接基于训练样例集后验概率分布进行预测。

CN2使用了似然率统计量(LRS),令 �+,�− 分别表示训练样例 的正反例数目, �^+,�^− 分别表示规则覆盖的正反例数目。

衡量了规则覆盖的分布与训练集经验分布的差别。LRS越大,说明采用规则集进预测与直接使用训练集正反例比率进行猜测的差别越大;LBS越小,说明规则集的效果越可能仅是偶然现象。

后剪枝REP

后剪枝常用减错剪枝(REP)。基本做法是:将样例集划分为训练集和验证集。基本做法是:将样例划分为训练集和验证集。在训练集上学得规则集后进行多轮剪枝,每一轮穷举所有可能剪枝操作,用验证集评估后保留最好的规则集进行下一轮剪枝,直到无法提升性能。

REP复杂度 �(�4) ,m维训练样例数目,IREP可以降低到 �(����2�) 。做法是:

在训练集上产生一条规则r;在验证集上进行REP剪枝,得到规则r';将r'覆盖的样例去除,在更新后的样例上重复上述过程。REP对整个规则集剪枝,IREP对单条规则剪枝。

1. 有监督学习

有监督学习通常是利用带有专家标注的标签的训练数据,学习一个从输入变量X到输入变量Y的函数映射。Y = f (X),训练数据通常是(n×x,y)的形式,其中n代表训练样本的大小,x和y分别是变量X和Y的样本值。

有监督学习可以被分为两类:

分类问题:预测某一样本所属的类别(离散的)。比如判断性别,是否健康等。

回归问题:预测某一样本的所对应的实数输出(连续的)。比如预测某一地区人的平均身高。除此之外,集成学习也是一种有监督学习。它是将多个不同的相对较弱的机器学习模型的预测组合起来,用来预测新的样本。

1.1 单模型

1.11 线性回归

线性回归是指完全由线性变量组成的回归模型。在线性回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

1.12 逻辑回归

用于研究Y为定类数据时X和Y之间的影响关系情况,如果Y为两类比如0和1(比如1为愿意和0为不愿意,1为购买和0为不购买),此时就叫二元逻辑回归;如果Y为三类以上,此时就称为多分类逻辑回归。

自变量并不一定非要定类变量,它们也可以是定量变量。如果X是定类数据,此时需要对X进行哑变量设置。

1.13 Lasso

Lasso方法是一种替代最小二乘法的压缩估计方法。Lasso的基本思想是建立一个L1正则化模型,在模型建立过程中会压缩一些系数和设定一些系数为零,当模型训练完成后,这些权值等于0的参数就可以舍去,从而使模型更为简单,并且有效防止模型过拟合。被广泛用于存在多重共线性数据的拟合和变量选择。

1.14 K近邻(KNN)

KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同。KNN做分类预测时,一般是选择多数表决法,即训练集里和预测的样本特征最近的K个样本,预测为里面有最多类别数的类别。KNN做回归时,一般是选择平均法,即最近的K个样本的样本输出的平均值作为回归预测值。但它们的理论是一样的。

1.15 决策树

决策树中每个内部节点都是一个分裂问题:指定了对实例的某个属性的测试,它将到达该节点的样本按照某个特定的属性进行分割,并且该节点的每一个后继分支对应于该属性的一个可能值。分类树叶节点所含样本中,其输出变量的众数就是分类结果。回归树的叶节点所含样本中,其输出变量的平均值就是预测结果。

1.16 bp神经网络

bp神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。bp神经网络的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的分类错误率最小(误差平方和最小)。

BP 神经网络是一种多层的前馈神经网络,其主要的特点是:信号是前向传播的,而误差是反向传播的。具体来说,对于如下的只含一个隐层的神经网络模型:

BP 神经网络的过程主要分为两个阶段,第一阶段是信号的前向传播,从输入层经过隐含层,最后到达输出层;第二阶段是误差的反向传播,从输出层到隐含层,最后到输入层,依次调节隐含层到输出层的权重和偏置,输入层到隐含层的权重和偏置。

1.17 支持向量机(SVM)

支持向量机回归(SVR)用非线性映射将数据映射到高维数据特征空间中,使得在高维数据特征空间中自变量与因变量具有很好的线性回归特征,在该特征空间进行拟合后再返回到原始空间。

支持向量机分类(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。

1.18 朴素贝叶斯

在给定一个事件发生的前提下,计算另外一个事件发生的概率——我们将会使用贝叶斯定理。假设先验知识为d,为了计算我们的假设h为真的概率,我们将要使用如下贝叶斯定理:

该算法假定所有的变量都是相互独立的。

1.2 集成学习

集成学习是一种将不同学习模型(比如分类器)的结果组合起来,通过投票或平均来进一步提高准确率。一般,对于分类问题用投票;对于回归问题用平均。这样的做法源于“众人拾材火焰高”的想法。

声明:该篇文章为本站原创,未经授权不予转载,侵权必究。
换一批
延伸阅读

业界应如何看待边缘人工智能?ST授权合作伙伴 MathWorks 公司的合作伙伴团队与ST 共同讨论了对边缘机器学习的看法,并与 STM32 社区分享了他们的设计经验。

关键字: AI 机器学习 处理器

业内消息,在昨天的中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。Vidu是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标Sora...

关键字: Sora 清华 AI Vidu

OPPO今日推出 Find X7全新配色 ——「白日梦想家」,为消费者带来更多选择。新配色采用独特釉层处理工艺,焕发如白瓷般柔润细腻的光泽,带来初夏般的清爽。Find X7「白日梦想家」以敢想敢做,坚韧信念、无限潜能的信...

关键字: Find X7 大模型 AI

双方的合作促成了尖端人工智能视觉解决方案,提高了效率、连通性和成本效益

关键字: 人工智能 智能家居 机器学习

4月26日,MediaTek宣布推出天玑汽车平台新品,以先进的生成式AI技术赋能智能​汽车的体验革新。

关键字: AI 汽车电子

2024年4月26日,中国深圳——2024年是OPPO品牌成立20周年。在2024年世界知识产权日,OPPO正式发布首份《OPPO创新与知识产权白皮书》,系统性地展现了OPPO 20载技术创新和知识产权保护成果。

关键字: OPPO 知识产权 AI

「人工智能浪潮下的中国制造」论坛顺利召开 上海2024年4月17日 /美通社/ -- 4月12日,由百年名校法国里昂商学院主办,斯巴诺萨设计承办,福州东湖数字小镇,福建亚太合会数字经济专委会协办的"中法建交6...

关键字: 微软 雷诺 AI 中国制造业

根据调研机构Gartner的预测,由于竞相投资AI以及IT设备更换周期的到来,全球2024年的IT支出将增长8%。

关键字: GenAI IT AI

据报道,日本电信巨头软银集团将在未来两年投资1500亿日元(9.6亿美元)升级其计算设施,该计划包括大量采购英伟达GPU。

关键字: 软银 英伟达 GPU AI

【2024年4月24日,德国慕尼黑讯】英飞凌科技股份公司(FSE代码:IFX / OTCQX代码:IFNNY)发布全新PSOC™ Edge微控制器(MCU)系列的详细信息,该系列产品的设计针对机器学习(ML)应用进行了优...

关键字: 物联网 机器学习 MCU
关闭