当前位置:首页 > 物联网 > 智能应用
[导读] 未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。近日,江苏淮安警方查封了7家利用爬虫技术盗取用户隐私的科技公司,这7家公司共计盗取了4.68亿个人身份信息,而目前中国网民的数量为8.54亿人。换言之,至少有超过一半的网民失去了隐私。

 未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。近日,江苏淮安警方查封了7家利用爬虫技术盗取用户隐私的科技公司,这7家公司共计盗取了4.68亿个人身份信息,而目前中国网民的数量为8.54亿人。换言之,至少有超过一半的网民失去了隐私。

2019年9月以来,警方发起互联网“除虫”行动,大力打击非法抓取用户信息的违法犯罪行为。在此之前,51信用卡、同盾科技等“独角兽”也在爬虫数据的应用方面误入歧途,丢了生意也毁了声誉。作为互联网大数据最早也是最广泛的应用之一,爬虫技术正在遭遇前所未有的信任危机。

你的隐私只值一块钱

挂上科技公司的“羊头”,做着卖用户隐私的“狗肉生意”,这背后是暴利的诱惑。据江苏淮安警方通报内容显示,此次被查封的科技公司,主要是通过“黑爬虫”网站的软件非法获取小贷公司的用户数据,再打包售卖的下游客户从中牟利。据此前媒体报道案例显示,一份包含有个人身份信息、贷款数据、逾期数据等内容的400人隐私数据包,售价为500元,算下来,一个人的隐私价格为1块多钱。当购买者所需要的数据量足够大,一条个人信息的单价甚至可以低至1分钱。在此次江苏淮安警方查获的7家涉事公司中,拉卡拉支付旗下的考拉征信也在其中。据了解,考拉征信向下游一家叫北京黑格公司的数据公司售卖数据接口后,该数据再次流通到下游购买方。

作为二级“代理商”的考拉征信,从2015年3月以来共计提供了近1亿次“身份证返照”查询的非法业务,从中获利3800万元。照此计算,考拉征信贩卖一条隐私信息可获利2.63元。贩卖隐私信息的成本是多少?通过工商信息可以了解到,作为隐私数据源头的北京黑格公司登记员工人数为3人。若这3名员工均为爬虫技术工程师,按照目前2万至4万的薪资计算,北京黑格的人工成本为每年72万元-144万元。按照1分钱一条隐私的价格,只需要售卖7200万条信息就能回本。

隐私的终点站

据警方通报信息显示,上述7家科技公司售卖的隐私数据,最终将被用于推销贷款和催收,以及和其他公司交换信息。其中,专门从小贷公司专区截获的个人信息,可用于放贷以及继续向下游客户售卖。10月21日,港股上市公司51信用卡因委托外包催收公司涉嫌寻衅滋事等违法行为,被公安机关调查。消息称,51信用卡通过爬虫数据窃取用户隐私数据,并将数据库打包流通至催收公司。在此之前,该公司因未经用户同意收集个人信息而被工信部点名批评。

9月,大数据明星创业公司魔蝎科技的涉案人员,因非法贩卖个人隐私被警方带走。在此之前,该公司曾开发过一款专门爬取支付宝数据的产品。据其产品介绍,个人只要扫描一枚二维码就会将包括真实姓名、手机号、收货地址、近一年的购物信息、交易记录等信息事无巨细地统统“上交”给数据库。

2019年3月,号称中国最大的简历大数据公司、曾获李开复旗下创新工场投资的巧达科技,被警方“一锅端”,原因是非法售卖简历信息。据警方披露,巧达科技非法获取了2.2亿自然人的简历信息以及超过10亿份通讯录。而这些信息背后,是与此相关的社会关系、组织关系、家庭关系。按照此前巧达科技的官宣数据,这家公司拥有超过8亿自然人的全方位数据。更早,“大数据行业第一股”数据堂的员工也爆出贩卖公民信息的丑闻。据公开信息显示,该案6名主要涉案人员在8个月时间内,共计贩卖公民信息量达到百亿条,累计传输数据压缩后约为4000GB左右,相当于传送了2000部《战狼2》。

这些隐私数据的主人不一定是贷款人或者小贷平台的用户,他们可能是网购达人、准备买房的青年、正在准备就业的大学毕业……据悉,数据堂所贩卖的隐私数据主要内容为手机号、地区和互联网使用习惯偏好,通过标签化可以做到精准营销。

大数据光环下的“虫灾”

什么数据能爬取、爬取行为如何约束以及怎么使用爬取的数据,业界标准无法统一。“君子协议”防不住小人,只能由警方和检方出马了。但此起彼伏的追查行动,无法根治爬虫带来的“互联网虫灾”。爬虫技术诞生于上个世纪90年代,最早被应用于Google等搜索引擎。爬虫技术通过抓取互联网网页信息并对其进行筛选、储存,就能成为一个巨大的“数据包”,供用户在搜索引擎上检索。百度搜索也是基于爬虫技术而实现的。随着技术的演进,后续还出现了“算法推荐”等基于爬虫数据库而升级的新工具。技术无罪,人性作祟。在爬虫技术诞生之初,一些搜索引擎同一些网站通过邮件的方式定下“君子协议”—— robots.txt。协议内容规定了搜索引擎在网站抓取内容的范围和禁区。彼时,爬虫技术的生长环境还是透明的,内容获取和提供方的关系也更为和谐。

历史上关于爬虫数据的第一场纷争发生在2000年。美国支付平台eBay将一家比价网站BE告上法庭,原因是BE违反了爬虫协议,将禁区内的用户信息爬取并聚合公开。尽管BE声称该内容属于用户集体贡献而不归用户所有,但最终eBay胜诉。

2017年,领英以违法爬虫将一家数据分析公司告上法庭。但结果和eBay不同,领英败诉。尽管领英一再强调保护用户隐私不被未知第三方滥用,且用户能够控制自己的数据将被用于何处。但实际上,领英对这家数据公司的爬取是知情的。发起诉讼,源自领英准备开展与该数据公司类似的业务,为此需要阻断其爬取行为。两场官司的出发点发生了变化。从最初的单纯维护爬虫协议的“保护隐私原则”,转变为以谋求自身利益的爬取反制——经过20年的演变,爬虫数据的行业自律行为,已经远远超过互联网道德约束的边界。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭