当前位置:首页 > 物联网 > 物联网技术文库
[导读] 如何处理数据共享与隐私保护之间的矛盾早已成为了当前数据圈的热议话题,本期“智源-AI Time”邀请到了明略科技集团首席科学家吴信东教授、清华大学计算机系朱小燕教授、清华大学交叉信息研究院徐葳副

如何处理数据共享与隐私保护之间的矛盾早已成为了当前数据圈的热议话题,本期“智源-AI Time”邀请到了明略科技集团首席科学家吴信东教授、清华大学计算机系朱小燕教授、清华大学交叉信息研究院徐葳副教授,以及微众银行人工智能部副总经理吴海山,共同论道了“数据共享开放与隐私保护”这个似乎高深,又与每个人息息相关的话题。

数据开放的三大必要条件

我们共享位置信息以便预约车的司机找到自己,也暴露了自己的行踪;用浏览纪录调教APP获得更合心意的推荐,也让个人喜好一览无余。开放个人数据的同时,我们冒着暴露隐私的危险,也享受着它带来的便利。

有统计数据显示,每天全世界会上传5亿张图片,每分钟就有20小时的视频被分享,我们整个人类文明所产生的全部数据中有90%是过去两年所产生的。

有人说,发挥数据的价值,主要在流通。的确,数据共享可以使更多的人充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用,而把精力重点放在开发新的应用程序及系统集成上。但是,要真的让数据流通起来,需要以下这些必要条件:

数据资源的标准化

数据开放共享,首先要做到的就是数据资源的标准化。我们需要解决大规模的、来自多个来源的、异构的数据集成问题,实现海量多元异构数据源的统一管理。

数据质量

数据质量是数据开放共享中需要解决的关键问题。比如,对于数据的发布者来说的话,怎么样来保证开放的数据没有敏感内容,怎么样保证这个数据是可信的?自动的评估和控制数据质量,是一个关键指标。

开放和共享不等于免费

清华大学计算机系朱小燕教授提到“开放和共享不等于免费”,分配权益,其实也是数据流通的基本动力,必须要保证数据的拥有者,持有者和开发者,都能有满意的权益分配。

数据共享和开放在产业界的趋势和挑战

根据不同的用法,数据有不同的治理和整理方法。那些使用数据的人,未必是生产数据的人。

清华大学交叉信息研究院徐葳副教授提到,“来自业内的数据可能不如分布在地方政府手里的数据多,但是很多人会明显觉得BAT似乎把数据用的更好。那是因为业内特定领域已经打通了数据并且形成了闭环,他们更清楚数据应该怎么使用,理解根据这些使用需要采集怎样的数据、怎样去对数据进行清洗。”

的确,数据必须要流动起来它才能产生价值,否则的话它就是一个孤岛,没有什么太大的价值。数据共享,也需要一个前后背景,以学术研究还是产业应用为前提进行共享,这两者的管理治理完全不一样。

以金融行业为例,因为金融行业非常容易出现不合规行为,所以数据的应用和管控会更加严格。比如,如果用来投资,被标为非公开信息的数据会被禁止使用。而关于个人用户隐私层面的管控可能更严,在金融领域里面,有一种“另类数据”。它不是类似传统银行财报这样公开的信息,而是一种新型的数据,比如手机上的GPS数据、网站APP下载的数据。这些也可以用来分析一个公司或者一个国家经济层面的运转程度。

现在越来越多的研究层面开始关注,包含用户信息的数据如何在技术场景里使用。为了解决一个工业界的问题,需要训练模型,那如何在不共享数据的情况下进行机器学习呢?

微众银行人工智能部副总经理吴海山举例解释,“比如用数据去分析用户贷款违约的概率,可能需要A公司电商的数据、B公司社交的数据,但两家公司不可能放心地把数据放到我的平台上……在这种情况下,为了在数据不共享的情况下,依然能够训练机器学习模型,我们首席人工智能专家杨强教授提出了联邦学习,它是一种新型的,能够在保护用户隐私和数据共享的前提下,以一个合法合规的方式去使用数据、训练模型、解决问题,我们觉得这个可能是更加本质的一个问题。”

“离开数据服务谈数据隐私都是耍流氓”

机器学习需要大量数据,数据的共享无疑是学界和业界共同期待的,但是数据的共享也离不开对于数据和隐私的保护。

对于用户隐私的保护,几位专家有不同的看法。徐葳教授认为隐私是一种个人感受;吴信东教授认为企业的隐私就是其核心竞争力。

而吴海山先生则认为隐私是一种资产,“我们去看病的时候,恨不得把所有的信息都告诉医生,我们买房子贷款的时候,恨不得把以往所有的信息都给银行看,才能让它给你贷款。这个时候隐私已经作为一种资产,有一个隐含的定价前提。你得到更好的金融服务,得到更好的企业服务,个性化服务。所以谈任何个人隐私、企业隐私,得到的服务和隐私之间有一个平衡,这是在讨论隐私之前需要关注的问题。”

数据加密技术大盘点

大数据生命周期分为数据发布、数据储存、分析和挖掘、数据使用,在这些环节中都存在数据隐私保护的问题。加密是保护数据的一个手段,但是加密之后的数据无法使用。现在的技术需要保证数据在流通使用过程中也不造成泄露,也就是限制数据的使用。

在沙龙现场,几位嘉宾也探讨了目前几种常见的数据加密技术。

差分隐私

差分隐私其实是一种度量方式。通过一群人里算出来的模型,和去除A算出来的是一样的,这样就无从判断A是否还在这群人中,就起到保护A隐私的作用。这个方法对于保护“泯然众人”的数据是有用的,但是却很难保护那些“很个性”的数据,因为这些“个性”的数据对于整体数据的计算印象很大。

多方安全计算

多方安全计算(MPC)是解决一组互不信任的参与方之间保护隐私的协同计算问题,MPC要确保输入的独立性,计算的正确性,同时不泄露各输入值给参与计算的其他成员。主要是针对无可信第三方的情况下,如何安全地计算一个约定函数的问题,在电子选举、电子投票、电子拍卖、秘密共享、门限签名等场景中有着重要的作用。

K匿名

k-匿名技术是1998 年由SamaraTI和Sweeney提出的,要求发布的数据中存在一定数量(至少为k)的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私。明略科技集团首席科学家吴信东教授举例解释,“比如,为了避免报警者受到报复,警察记录的是方圆多少距离的人打来的报警电话,通过对位置信息的泛化,保护了报警者的位置信息,但同时也会降低数据的可用性。可能警察记录是五公里以内的人打了电话,但是警察自己也找不到那个人是谁。”

什么样的数据值得保护?数据隐私保护技术就像是顺丰快递,要看寄送的东西值不值得快递费用。评估数据的价值,是比数据保护更重要的事情。数据保护问题的本质就在于我们如何对数据进行定价。或许有人出价一万买你的隐私,你会断然拒绝;但如果是一亿呢?离开数据的定价、数据流动产生的价值和通过数据得到的服务去讨论数据隐私,其实都是比较片面的。

隐私保护的政策问题

2018年5月25日,欧洲联盟出台《通用数据保护条例》(GDPR General Data ProtecTIon RegulaTIon)。这是全球目前最严格的数据保护条例。其最高的一笔罚单给了英国航空公司,罚金数额为1.8339亿英镑(约合15.8亿元人民币)。

国际方面对于数据保护的政策愈发严格,中国在保护个人信息方面也发布了推荐性国家标准《信息安全技术个人信息安全规范》,可以说在数据隐私保护规定方面,中国走在了亚洲前列。这项规范也参考了欧盟的《通用数据保护条例》,ISO29000系列等国际范围内的个人信息保护法律法规及标准,同时,从国内主要存在的个人信息保护现状和问题出发制定标准,更侧重标准的实用性。

欧盟《通用数据保护条例》(即GDPR)的制定确实在一定程度上保护了数据,但是也阻碍了欧洲人工智能产业的发展。而且,因为GDPR罚款高达公司全球营业额的4%,这对传统产业的企业很不友好、也不利于小公司的生存和发展。

从政策制定角度来讲,隐私保护政策需要可操作性以及合理合法的指导,让受众接受这条政策并积极施行。从经济学角度来讲,隐私保护政策会提高数据的价值,毕竟数据本身就是一种资产。

更严的隐私无疑会增加数据的成本,让整个行业尤其是小公司生存更加困难;更开放的数据共享,只会让大众和媒体放大数据隐私的侵犯,反而忘记数据共享带来的价值。我们需要的是灵活的隐私保护和数据共享方案。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

nRF Cloud现在提供一整套服务,包括设备管理、定位和安全,为物联网客户提高了灵活性和可扩展性

关键字: 物联网 传感器

【2024年5月13日,德国慕尼黑和斯图加特讯】随着汽车行业向软件定义汽车和新E/E架构过渡,市场对高性能硬件和强大网络安全解决方案的需求也逐渐增加。为满足这一需求,全球功率系统和物联网领域的半导体领导者英飞凌科技股份公...

关键字: 微控制器 半导体 物联网

2024年5月11日 – 提供超丰富半导体和电子元器件™的业界知名新品引入 (NPI) 代理商贸泽电子 (Mouser Electronics) 是Digi International Inc.的全球授权代理商,Digi...

关键字: 物联网 M2M 调制解调器

基于米尔-全志 T527设计一个简易的物联网网关,该网关能够管理多台MQTT设备,通过MQTT协议对设备进行读写操作,同时提供HTTP接口,允许用户通过HTTP协议与网关进行交互,并对设备进行读写操作。

关键字: 物联网 开发板 网关

全球通信技术公司Tata Communications 于今日推出了 Tata Communications CloudLyte,这是一款全自动边缘计算平台,旨在帮助面向未来的企业在数据驱动的世界中蓬勃发展。

关键字: 边缘计算 5G 物联网

【2024年5月9日,德国慕尼黑讯】信息安全与功能安全在汽车行业发挥着日益重要的作用,即便在低端微控制器应用中也不例外。与此同时,汽车制造商正在用触摸表面取代机械按钮,实现简洁的驾驶舱和方向盘。因此,电子电路的空间受到很...

关键字: 物联网 电子电路 微控制器

深圳2024年5月6日 /美通社/ -- 从4月23日的一场大会开始,到24-26日的IOTE会展节,我们共同见证了物联网领域的最新技术、产品和解决方案的集中展示,感受到了AIoT释放数字经济潜力的巨大能量。今天以展商满...

关键字: IoT 物联网 TE AIOT

北京,2024年5月7日——负责监管蓝牙技术的行业协会蓝牙技术联盟(Bluetooth Special Interest Group,SIG)发布年度报告《2024年蓝牙市场最新资讯》。该报告介绍了蓝牙技术在各个行业和市...

关键字: 蓝牙 物联网 智能家居

【2024 年 5 月6日,德国慕尼黑和台湾新北市讯】全球电源供应器制造商及电力电子行业领导者群光电能 (Chicony Power; TWSE:6412)(以下简称群电) 宣布其年度合作伙伴奖项得主,全球功率系统和物联...

关键字: 氮化镓 物联网 电源

北京——2024年4月30日 亚马逊云科技持续引领云上数据服务创新,助力企业构建全面的数据基座以充分发挥数据潜力,加速生成式AI技术落地。在生成式AI时代,数据是企业脱颖而出的关键——基础模型依赖于大规模高质量数据集,生...

关键字: 生成式AI 数据 模型
关闭
关闭