当前位置:首页 > 物联网 > 物联网技术文库
[导读] 有些公司已经将“数据匿名化”作为其战略的一部分,Apple刻意减少对数据的收集,因为拥有大量数据可能会使公司更容易成为黑客的目标,同时努力对收集的数据进行匿名化处理。 大数据时

有些公司已经将“数据匿名化”作为其战略的一部分,Apple刻意减少对数据的收集,因为拥有大量数据可能会使公司更容易成为黑客的目标,同时努力对收集的数据进行匿名化处理。

大数据时代下,数据的收集与应用在带来巨大社会价值的同时,也带来了个人隐私保护方面的难题。如何在对数据进行挖掘应用的过程中保护个人隐私,防止敏感信息泄露成为新的挑战。

在此前备受关注的“剑桥分析公司数据泄露”事件中,Facebook上超过5000万用户的信息被一家名为“Cambridge Analytica”的公司不当获取并用于未经授权的目的。然而,根据Facebook的解释,这些个人信息,例如用户填写的心理测试结果,全部是在经过“匿名化”处理后才被用于对外分享的。公司表示,在获取用户的授权后,这些数据会“通过匿名的方式被使用和分发,并且保证即使利用这些信息也不能追溯到个人用户”。

然而“匿名化”真的可以在大数据时代保护我们的个人隐私吗?

2015年,数据匿名化和隐私领域的研究员Latanya Sweeney针对华盛顿HIPAA(Health Insurance Portability and Accountability)法案保护下的医疗记录数据进行了一项“去匿名化”研究。在该州(以及许多其他州),公司和个人可以购买匿名的医疗记录数据。Sweeney通过合法渠道购买相关数据,其中包括“该州一年内几乎所有的住院治疗记录”以及就诊记录相关的大量细节,包括患者接受的诊断、手术,主治医生信息、收费摘要等等。这些记录都是匿名的,因为它们不包含患者的姓名或地址,但包括患者所在地址的邮政编码。

之后,Sweeney查阅了华盛顿州自2011年以来刊发的所有包含“住院治疗”一词的新闻报道,总共找到了81篇文章。通过对文章内容和匿名数据库进行比对分析,Sweeny发现其中35篇报道能够在数据库中找到与之精准对应的唯一医疗记录。而这些新闻报道中明确包含了患者的姓名,“成功”实现了对这35名患者的“去匿名化”。

众所周知,数据已成为现代社会发展的重要推动力。研究人员会收集大量的数据,并基于数据开展研究工作。Google的数据库可以包含你的完整搜索历史记录;Facebook存储着大量用户的行为、评论和照片信息。这些数据决定着我们会看到哪些新闻、电影和广告,哪些朋友的帖子会出现在我们社交媒体的feed流中,以及哪些潜在的伴侣会出现在我们的交友app中。然而,这里涉及的大部分数据都与我们的个人隐私息息相关。

01.政府、企业和研究机构持续收集着大量的数据

通常情况下,我们不会向陌生人透露我们的信用卡记录或医疗记录,因为我们对这些数据的敏感性有着清晰的认识。那么,为什么我们会泄露这些最私密的个人信息呢?原因是大多数人首先是数据“泄露”的受益者。Google通过收集数据优化搜索体验,并帮助Gmail过滤垃圾邮件;用户信用卡记录可以帮助银行监测信用卡盗刷行为;医疗记录可以帮助研究人员研发新药,或者帮助医生制定更好的治疗计划。

但人们享受这些益处并非没有代价。政府、企业和研究机构持续进行着大量的数据收集,而这仅仅是这一系列数据旅程的开始。它们将被重新打包,与来自其他来源的数据相结合,并通过合法或非法的方式被转售给“需要的人”。典型的数据包括:

你的位置(包括实时的与历史上的)

你的信用卡交易记录

你的网站浏览历史记录

你在网站的登录凭据

你的社会安全号码

你的医疗记录

即使你认为自己并没有什么需要隐藏的“秘密”,对个人数据的滥用仍可能对你造成不利影响。因此,大部分相关方在存储或转售个人信息时,一直在努力实现个人数据的“匿名化”。某些情况下,数据匿名化存在法律要求,例如HIPAA对个人医疗数据的要求,尽管HIPAA提供的保护并不像大多数人想象的那么强。类似的,欧盟最新的通用数据保护条例(GDPR)对能够识别个人身份信息的数据提出了严格的使用限制,相比之下,GDPR对匿名数据的使用限制则较少。

除此之外,有些公司已经将“数据匿名化”作为其战略的一部分。例如,与Google和Facebook不同,Apple刻意减少对数据的收集,因为拥有大量数据可能会使公司更容易成为黑客的目标。同时,Apple努力对收集的数据进行匿名化处理,并且不会对外转售用户数据。

这些举措很有勇气,值得鼓励。遗憾的是,研究表明,许多匿名化数据都很容易被“去匿名化”,尤其是当多个数据来源有一定程度的重叠的时候,区别一个数据来源和另一个数据来源的任一信息都能被用于去匿名化。

这里有一个关于“去匿名化”的知名案例。2006年,Netflix为改善其电影推荐服务,公布了包含部分用户评分的数据库,其中包括用户对电影的评分和评分日期。该数据库是匿名的,采用随机更改数据库中包含的大约480,000个用户的部分评级和评级日期等方法对数据库进行匿名化处理。

尽管存在这些干扰,但研究人员的实验结果表明:只需非常少的辅助信息,就可以对Netflix数据库中的大部分的用户记录进行去匿名化。通过8部电影的评分,和允许误差14天的评分日期,就可以唯一标识数据库中99%的用户;而仅通过2部电影,就可以标识68%的用户。而一个人观看8部电影的记录很容易获得,通过与其聊天或者查看他的博客就有可能得到。

电影评级可能看似无害,它们显然不如医疗记录敏感,但仍然可以揭示一个人的政治观点、宗教信仰和性取向等,从而严重侵犯一个人的隐私并使其处于危险之中。这对于当前的数据驱动型社会来说是一个严峻的挑战。

02.随着更多数据的公开或泄露去匿名化将变得更加容易

现实是,我们的数据正在被越来越多地被泄露和盗取。美国联邦紧急事务管理局(FEMA)今年早些时候泄露了230万灾民的家庭地址和银行账户信息;美国三大个人信用评估机构之一的Equifax在2017年遭遇黑客攻击,超过1.45亿人的信息被盗;非营利组织Privacy Rights Clearinghouse的研究显示,自2005年开始,14年中共发生了8804次数据泄露,超过115亿条记录被泄露。这意味着自2005年以来,平均每天发生1.7次数据泄露,220万条记录被泄露。当别有用心的人将所有这些数据拼凑在一起时,数据的去匿名化将变的更加容易。

对于相关领域的学者来说,这些担忧并不是什么新闻。2010年,个人隐私律师Paul Ohm就曾在《UCLA法律评论》中刊文指出,虽然恶意攻击者可以使用个人身份信息(如姓名或社会安全号码)将数据与个人身份进行关联,但事实证明,即便只拥有那些不会被归类为“个人身份信息”的信息,他们也可以达到同样的目的。

Ohm参考了Sweeney早期的一些研究,她发现1990年美国人口普查中有87%的人可以通过两条信息进行唯一识别:他们的出生日期和他们住址的邮政编码。Ohm还引用了Netflix以及其他有关数据泄露的案例,并得出结论:在传统的以个人身份信息为保护重点的匿名化技术下,几乎任何数据都无法实现永久的完全匿名。

2013年,研究人员发现位置数据具有高度的独特性,因此更加难以匿名化。许多匿名数据库都可能间接泄露你的位置,例如刷卡消费或前往医院就诊。研究人员发现,通过每小时记录4次手机连接到的信号发射塔,就可以对95%的设备进行唯一识别。如果数据更精细(GPS跟踪而不是信号发射塔,或者实时采集而不是每小时采集),匹配则会变得更加容易。

03.数据的合理利用具有积极的社会价值

然而不可否认的是,尽管面临被滥用的风险,但数据的合理利用同时又具有很多积极的社会价值。我们希望医学研究人员创造新的药物和治疗方法、希望我们的房屋能够自动调节到舒适的温度、希望Google地图提示我们前方道路拥堵。我们渴望大数据带来的益处,却又不想面临去匿名化的风险。

然而事实是,我们必须做出权衡。我们已经被迫放弃了一些隐私,未来可能还需要放弃更多,但真正关键的是如何降低我们的隐私被滥用的可能性。

保护敏感数据和防止未经授权的访问必须成为每一个数据收集者的第一要务。同时,监管机构也应持续加强对个人数据隐私的保护力度。例如,GDPR鼓励公司存储更少的数据并尽最大努力对存储的数据进行匿名化处理,即使这并非100%有效。

同样,参与数据收集和存储的每一方都应该及时了解最新的隐私保护技术。例如差分隐私(DifferenTIal Privacy,一种基于密码学的隐私保护技术)这样的策略,即在数据库发布之前将一些随机噪声添加到数据库中,这有助于减少基于数据关联性的攻击。Apple和Google都在研究差分隐私策略方面付出了很多努力,这些举措值得借鉴。

总而言之,我们需要坦诚面对数据带来的价值和风险,并谨慎权衡。一方面,我们希望释放大数据的力量,为我们的生活带来积极的改善。而另一方面,大量数据存在的本身就是一种隐私风险。如果我们放弃过多的隐私,大数据则可能进一步剥夺我们的自由。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭