当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 隐私,在这个时代早已是伪命题。 为了在一定程度上重建隐私保障,近期一系列立法举措(包括欧洲的〈通用数据保护条例〉以及美国的〈加利福尼亚州消费者隐私法〉)对于清除个人信息做出了相关规定。但

隐私,在这个时代早已是伪命题。

为了在一定程度上重建隐私保障,近期一系列立法举措(包括欧洲的〈通用数据保护条例〉以及美国的〈加利福尼亚州消费者隐私法〉)对于清除个人信息做出了相关规定。但是,要想让经过训练的AI模型“忘记你”,传统的方法,只能是从零开始利用新数据进行重新训练——整个过程可能耗时数周,且成本相当高昂。

最近新发表的两篇论文,带来了高效从AI模型中删除记录的方法,有望节约巨量能源并真正为合规性带来保障,一篇来自斯坦福大学,另一篇(预印本)来自多伦多大学。斯坦福大学计算机科学家、第一篇论文的联合作者Melody Guan表示,“我们似乎需要一些新的算法,来简化企业之间的实际合作,确保实现难度不会成为他们违反隐私规定的借口。”

由于关于高效数据删除的文献非常有限,因此斯坦福大学的作者们首先对问题做出明确定义,并提出有助于缓解问题的四项设计原则:

第一项原则为“线性度”:简单的AI模型只需要对数字进行加法与乘法运算,这就避免了所谓非线性数学函数的介入,保证步骤分解更加简单易行;

第二项则是“惰性”原则,尽可能推迟计算操作,除非确实需要做出预测;

第三项为“模块化”:如果可能,尽量以可拆分的形式进行模型训练,而后组合结果;

第四项是“量化”,即只要平均值能够定在特定的离散区间之内,则删除其中对于平均值结果影响不大的数值。

斯坦福大学的研究人员们将其中两项原则应用到一种名为k均值聚类的机器学习算法当中。此算法用于将数据点分类为自然聚类,例如用于分析密切相关的种群之间的遗传性差异。(在UK Biobank医学数据库中,该聚类算法已经得到实际应用。而且有部分患者已经向数据库作者提出通告,要求将自己的记录从数据库中删除。)研究人员利用量化技术开发出一种Qk均值算法,并立足六套数据集进行了测试,分别对单元格类型、手写数字、手势、森林覆盖率以及联网设备黑客入侵情况进行分类。他们在每组数据集内各删除1000个数据点,每次1个。结果证明,Q-k均值算法的速度达到常规k均值算法的2倍到584倍,且准确性几乎没有任何损失。

利用模块化方法,他们又开发出DC-k均值(用于实现分治法)。数据中的各个点被随机划分为多个子集,且各个子集将独立进行聚类。接下来,再将这些子集构成新的集群,依此类推。事实证明,从单一子集内删除一个点,并不会影响到其他子集的结果。新算法的加速水平在16倍到71倍之间,且准确性同样几乎不受影响。该项研究被发表在上个月的加拿大温哥华神经信息处理系统(NerulPS)大会上。

多伦多大学以及Vector研究院计算机科学家Nicolas Papernot指出,“这篇论文中的亮点,在于利用算法中的某些基本面(k均值聚类)完成了以往无法实现的目标。”但是,其中某些方法在其他算法类型中无法确切起效,例如在深度学习中使用的人工神经网络。上个月,Paernot以及其他联合作者在网站arXiv上发表一篇论文,提到一种适用于神经网络的训练方法,名为SISA(分片、隔离、切片以及聚合)训练。

这种新方法采取两种不同的模块化实现方式。首先,在分片部分中将数据集划分成多个子集,并立足每套模型建立独立的训练模型副本。当需要进行预测时,各模型的预测结果将被汇总为统一的整体。利用这种方式,删除数据点时,我们只需要重新训练其中一套模型。第二种方法则是切片,即对各个子集做出进一步细分。该子集的模型会首先在切片1上训练,而后同时在切片1与切片2上训练,接下来在切片1、切片2以及切片3上训练,依此类推。最后,在完成各个步骤后对训练完成的模型进行归档。如此一来,如果删除切片3中的数据点,则可快速返回至训练的第三步中,并以此为起点继续训练。Papernot表示,分片与切片方法“相当于为我们的模型训练流程提供了两个调整旋钮。”Guan也称赞称,这种方法“非常直观”,只是“使用的记录删除标准还不够严格。”

来自多伦多的研究人员们通过两套大型数据集训练神经网络,希望测试这种方法。其中一套数据集包含超过60万张与家庭住址编码相关的图像,另一套则包含30多万条购买历史记录。他们从各个数据集中删除0.001%的数据量,而后重新训练,并发现分片技术(20个分片)使得地址相关任务的重新训练速度提高 了3.75倍,购买记录相关任务的重新训练速度提高 8.31倍(与标准模型重新训练方法比较),而且几乎不会对准确度造成影响。在配合切片方法之后,地址相关任务的速度进一步提高 了18%,购买记录相关任务的速度提高 43%,准确度同样没有降低。

公开发布的数据显示,仅删除0.001%的数据似乎太过温和,但Papernot表示谷歌搜索等服务的重新训练规模要比这个数字还低出几个量级。另外,18%的速度提升看似有限,但对于大型机使用场景来讲,已经能够节约海量时间与金钱。另外,在某些情况下,我们也许能够发现某些更有必要忽略的数据点——例如来自少数族裔或者患有特定疾病的人群,确保他们免受隐私侵犯的影响。将这些数据点集中起来,将进一步提高删除效果。Papernot表示,他们也在积极整理数据集知识,希望进一步提高SISA方法的定制化水平。

Guan解释道,某些AI方法虽然在设计上就考虑到隐私性要求,但有时候使用者仍然需要删除其中的某些特定数据点。举例来说,有些人可能不想把自己的数据交给某家声名狼藉的企业,科学家们有时候也可能需要删除引发问题的数据点(例如黑客用来「毒化」数据集的伪造记录)。无论是哪一种情况,对AI模型中的数据进行删除都将成为一种必要的手段。

Guan总结道,“很明显,我们还没有构建起完整的解决方案。但我们认为对问题做出明确定义,是解决问题的重要前提。希望人们能够在算法设计之初,就充分考虑到数据保护方面的需求。”

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭