当前位置:首页 > 物联网 > 物联网技术文库
[导读] 过去十年以来,我们收集与存储个人数据的能力呈现出爆炸式的增长。由于全球三分之二的人口能够访问互联网,电子病历成为常态,物联网亦快速兴起,这种趋势很可能迎来愈演愈烈之势。通过填写在线调查或者统计浏

过去十年以来,我们收集与存储个人数据的能力呈现出爆炸式的增长。由于全球三分之二的人口能够访问互联网,电子病历成为常态,物联网亦快速兴起,这种趋势很可能迎来愈演愈烈之势。通过填写在线调查或者统计浏览习惯,从金融或者医疗服务当中大规模收集到的信息拥有令人意外的巨大潜力。其推动了医学、社会科学以及人工智能的科学进步,并有望彻底改变企业与政府的运作方式。

然而,大规模收集并使用详尽的个人级数据也带来了法律层面的隐私难题。最近,DeepMind共享英国国家健康服务局(NHS)医疗数据以及剑桥分析公司大量购买Facebook数据集等事件,都让人们愈发关注个人数据的保密性、隐私性与道德使用等问题。

为此,数据匿名化也开始受到了广泛关注。所谓匿名化,就是在共享数据集内容之前首先其其中的身份信息进行剔除,这也是各类研究与商业机构所采取的主要个人隐私保护范式。全球范围内的各类数据法普遍认为匿名数据不再属于个人数据,允许各方自由使用、共享以及销售。例如,学术期刊正越来越多地要求作者向研究界提供匿名数据。虽然匿名数据的标准各不相同,但现代数据保护法(例如欧盟〈通用数据保护条例〉(GDPR)以及〈加州消费者隐私法案〉(CCPA)等)都认为数据集中的每个人都应通过匿名化方式得到保护。GDPR提出的要求进一步明确了这种新的匿名化标准:数据不应包含可能导致真实身份复原的明显身份识别因素,这也将匿名化问题正式归入法律范畴。

而为了保护这些有意或者无意间将自己的个人信息交予数据库的用户,大多数机构也会消除数据中的身份信息。在具体流程中,他们会删除明显的个人身份标识,包括姓名与社保号码;有时也会采取其他预防性措施,例如向集合中引入随机“噪声”数据或者利用常规标识替换特定细节(例如将1990年3月7日出生,调整为1990年1月至4月间出生)。处理完成之后,代理机构即可发布或者出售这部分信息。

》》》 数据匿名化处理被证明无效

然而,事实证明,经过匿名化处理的数据集无法成功解决个人身份被复原问题。

2016年,记者从300万德国公民的匿名浏览历史数据集当中重新识别出多位政治家,并据此得到了其医疗信息与性取向结论。几个月前,澳大利亚卫生部公开发布了涵盖国内10%人口的去身份医疗记录,但研究人员仅在6周之后就完成了重新识别。在此之前,有研究表明,我们完全可以利用基本人口统计学属性结合诊断数据、出生年份、性别以及种族等基因组研究数据实现患者身份的唯一性识别。最后,研究人员们还发现,来自纽约的出租车路线、伦敦的共享自行车使用方式、里加的地铁出行数据以及移动电话与信用卡数据集等所谓匿名信息,都可用于对个人进行唯一性识别。

关于这个论题,伦敦帝国理工学院计算隐私助理教授Yves-Alexandre de Montjoye作为作者之一,日前在《自然:通讯》杂志发表了名为《利用生成模型估算通过不完整数据集复原个人身份的成功率》(论文链接:https://www.nature.com/articles/s41467-019-10933-3)的研究论文,他表示,在过去25年当中,数据匿名化的基本作用就是在帮助我们在利用数据进行统计与研究之外,保护人们的隐私。然而,大部分常用的匿名化技术起源于二十世纪九十年代,也就是互联网快速发展之前。换言之,这些匿名技术并没有考虑到互联网在收集个人健康、财务、购物以及浏览习惯等细节方面的强大能力,从而使得我们能够相对容易地将匿名数据与特定个人关联起来。

例如,如果私人侦探打算在纽约市寻找某人,已经确定其为男性、年龄在30到35岁之间且患有糖尿病,那么搜索工作将简单得多。如果再配合其生日、孩子数量、邮政编码、所在企业以及所拥有的车辆型号,那么他们甚至可以很快推断出此人的真实身份。

过去几年以来,Montjoye和其他研究人员曾先后发表多份研究报告,探讨如何通过匿名购物数据或者健康记录复原个人身份。他们提出了一种基于copula的生成方法,其能够在完整度极低的数据集当中准确估算出特定人士被正确重新识别的可能性。在总计210名测试对象当中,他们的方法获得的个体唯一性预测AUC分数范围在0.84至0.97之间,代表其准确率已经非常可观。利用这套模型,他们发现在使用15项人口统计属性的任意数据集当中,美国普通民众的真实身份有99.98%的机率被成功复原。虽然15项人口统计信息听起来很多,但其中却蕴藏着不容忽视的大问题——2017年,一家营销分析公司曾意外发布了包含248项属性的匿名数据集,涵盖美国1.23亿个家庭。

配合社会人口统计学、调查与健康数据集,Montjoye及其团队证明这套模型在估算群体唯一性时的平均绝对误差(MAE)为0.018;即使仅利用1%的数据比例进行训练,其MAE仍可达到0.041。经过训练,模型能够准确预测出个体的重新识别结论是否正确:如果设定95%的准确度作为阈值(

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭