当前位置:首页 > 物联网 > 智能应用
[导读] 未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。近日,江苏淮安警方查封了7家利用爬虫技术盗取用户隐私的科技公司,这7家公司共计盗取了4.68亿个人身份信息,而目前中国网民的数量为8.54亿人。换言之,至少有超过一半的网民失去了隐私。

 未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。近日,江苏淮安警方查封了7家利用爬虫技术盗取用户隐私的科技公司,这7家公司共计盗取了4.68亿个人身份信息,而目前中国网民的数量为8.54亿人。换言之,至少有超过一半的网民失去了隐私。

2019年9月以来,警方发起互联网“除虫”行动,大力打击非法抓取用户信息的违法犯罪行为。在此之前,51信用卡、同盾科技等“独角兽”也在爬虫数据的应用方面误入歧途,丢了生意也毁了声誉。作为互联网大数据最早也是最广泛的应用之一,爬虫技术正在遭遇前所未有的信任危机。

你的隐私只值一块钱

挂上科技公司的“羊头”,做着卖用户隐私的“狗肉生意”,这背后是暴利的诱惑。据江苏淮安警方通报内容显示,此次被查封的科技公司,主要是通过“黑爬虫”网站的软件非法获取小贷公司的用户数据,再打包售卖的下游客户从中牟利。据此前媒体报道案例显示,一份包含有个人身份信息、贷款数据、逾期数据等内容的400人隐私数据包,售价为500元,算下来,一个人的隐私价格为1块多钱。当购买者所需要的数据量足够大,一条个人信息的单价甚至可以低至1分钱。在此次江苏淮安警方查获的7家涉事公司中,拉卡拉支付旗下的考拉征信也在其中。据了解,考拉征信向下游一家叫北京黑格公司的数据公司售卖数据接口后,该数据再次流通到下游购买方。

作为二级“代理商”的考拉征信,从2015年3月以来共计提供了近1亿次“身份证返照”查询的非法业务,从中获利3800万元。照此计算,考拉征信贩卖一条隐私信息可获利2.63元。贩卖隐私信息的成本是多少?通过工商信息可以了解到,作为隐私数据源头的北京黑格公司登记员工人数为3人。若这3名员工均为爬虫技术工程师,按照目前2万至4万的薪资计算,北京黑格的人工成本为每年72万元-144万元。按照1分钱一条隐私的价格,只需要售卖7200万条信息就能回本。

隐私的终点站

据警方通报信息显示,上述7家科技公司售卖的隐私数据,最终将被用于推销贷款和催收,以及和其他公司交换信息。其中,专门从小贷公司专区截获的个人信息,可用于放贷以及继续向下游客户售卖。10月21日,港股上市公司51信用卡因委托外包催收公司涉嫌寻衅滋事等违法行为,被公安机关调查。消息称,51信用卡通过爬虫数据窃取用户隐私数据,并将数据库打包流通至催收公司。在此之前,该公司因未经用户同意收集个人信息而被工信部点名批评。

9月,大数据明星创业公司魔蝎科技的涉案人员,因非法贩卖个人隐私被警方带走。在此之前,该公司曾开发过一款专门爬取支付宝数据的产品。据其产品介绍,个人只要扫描一枚二维码就会将包括真实姓名、手机号、收货地址、近一年的购物信息、交易记录等信息事无巨细地统统“上交”给数据库。

2019年3月,号称中国最大的简历大数据公司、曾获李开复旗下创新工场投资的巧达科技,被警方“一锅端”,原因是非法售卖简历信息。据警方披露,巧达科技非法获取了2.2亿自然人的简历信息以及超过10亿份通讯录。而这些信息背后,是与此相关的社会关系、组织关系、家庭关系。按照此前巧达科技的官宣数据,这家公司拥有超过8亿自然人的全方位数据。更早,“大数据行业第一股”数据堂的员工也爆出贩卖公民信息的丑闻。据公开信息显示,该案6名主要涉案人员在8个月时间内,共计贩卖公民信息量达到百亿条,累计传输数据压缩后约为4000GB左右,相当于传送了2000部《战狼2》。

这些隐私数据的主人不一定是贷款人或者小贷平台的用户,他们可能是网购达人、准备买房的青年、正在准备就业的大学毕业……据悉,数据堂所贩卖的隐私数据主要内容为手机号、地区和互联网使用习惯偏好,通过标签化可以做到精准营销。

大数据光环下的“虫灾”

什么数据能爬取、爬取行为如何约束以及怎么使用爬取的数据,业界标准无法统一。“君子协议”防不住小人,只能由警方和检方出马了。但此起彼伏的追查行动,无法根治爬虫带来的“互联网虫灾”。爬虫技术诞生于上个世纪90年代,最早被应用于Google等搜索引擎。爬虫技术通过抓取互联网网页信息并对其进行筛选、储存,就能成为一个巨大的“数据包”,供用户在搜索引擎上检索。百度搜索也是基于爬虫技术而实现的。随着技术的演进,后续还出现了“算法推荐”等基于爬虫数据库而升级的新工具。技术无罪,人性作祟。在爬虫技术诞生之初,一些搜索引擎同一些网站通过邮件的方式定下“君子协议”—— robots.txt。协议内容规定了搜索引擎在网站抓取内容的范围和禁区。彼时,爬虫技术的生长环境还是透明的,内容获取和提供方的关系也更为和谐。

历史上关于爬虫数据的第一场纷争发生在2000年。美国支付平台eBay将一家比价网站BE告上法庭,原因是BE违反了爬虫协议,将禁区内的用户信息爬取并聚合公开。尽管BE声称该内容属于用户集体贡献而不归用户所有,但最终eBay胜诉。

2017年,领英以违法爬虫将一家数据分析公司告上法庭。但结果和eBay不同,领英败诉。尽管领英一再强调保护用户隐私不被未知第三方滥用,且用户能够控制自己的数据将被用于何处。但实际上,领英对这家数据公司的爬取是知情的。发起诉讼,源自领英准备开展与该数据公司类似的业务,为此需要阻断其爬取行为。两场官司的出发点发生了变化。从最初的单纯维护爬虫协议的“保护隐私原则”,转变为以谋求自身利益的爬取反制——经过20年的演变,爬虫数据的行业自律行为,已经远远超过互联网道德约束的边界。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

北京——2024年4月18日 西门子中国和亚马逊云科技双方高层在西门子中国北京总部会晤,双方宣布签署战略合作协议,共同成立“联合创新团队”。基于亚马逊云科技在生成式AI领域的领先技术和服务,并结合西门子在工业领域的深厚积...

关键字: 生成式AI 机器学习 大数据

2024年4月17日,中国 – 服务多重电子应用领域、全球排名前列的半导体公司意法半导体(STMicroelectronics,简称ST;纽约证券交易所代码:STM)将在2024年4月25日欧洲证券交易所开盘前公布202...

关键字: 半导体 数据

数据占满我们的电子设备已成常态,为了满足广大用户的需求,NAS应运而生。然而,对于许多普通用户来说,NAS设备的设置和使用却常常令人望而却步。不过,铁威马TOS 6的出现,不仅功能强大,而且操作简便,即使是初次接触NAS...

关键字: 数据 电子设备 NAS

赛诺贝斯开创性"三位一体"商业模式:领跑MarTech行业的创新引擎

关键字: 数字化 大数据 大模型 生成式AI

机器学习作为人工智能领域的重要组成部分,其过程涉及到多个核心环节。本文将详细阐述机器学习的四个主要步骤:数据准备、模型选择、模型训练与评估,以及模型部署与应用,以揭示机器学习从数据到应用的完整流程。

关键字: 数据 人工智能 机器学习

机器学习算法是人工智能领域中的核心技术之一,它通过对大量数据进行学习,自动发现数据中的规律和模式,从而实现对新数据的预测、分类、聚类等任务。本文将深入探讨机器学习算法的基本过程,包括数据准备、模型选择、训练与评估等关键步...

关键字: 数据 人工智能 机器学习

随着大数据时代的到来和计算能力的不断提升,机器学习作为人工智能领域的重要分支,正逐渐改变我们的生活方式和工作模式。机器学习涉及多个学科的理论和技术,其应用广泛且深入,为各个领域的发展带来了前所未有的机遇。那么,机器学习具...

关键字: 大数据 机器学习 人工智能

随着大数据时代的来临,数据的价值日益凸显,如何从海量数据中提取有用信息并转化为实际价值,成为各行各业关注的焦点。机器学习和数据挖掘作为两大核心技术,在数据分析和处理中发挥着越来越重要的作用。本文将通过几个典型的应用案例,...

关键字: 大数据 机器学习 数据挖掘

随着人工智能(AI)技术的迅速发展,人们对于通用人工智能(AGI,即Artificial General Intelligence)的期待也日益高涨。通用人工智能指的是具备像人类一样全面智能的计算机系统,能够执行各种复杂...

关键字: 人工智能 计算机 数据

随着互联网的迅猛发展,百度、阿里巴巴、腾讯等互联网巨头逐渐崭露头角,成为了行业的领军者。这些公司在云计算、大数据、人工智能等领域积累了丰富的经验和技术实力,为开发者提供了丰富的服务和工具。在这样的背景下,BAT模块应运而...

关键字: 互联网 云计算 大数据
关闭
关闭