当前位置:首页 > 物联网 > 智能应用
[导读]回顾10月发生的大事,多家大数据公司被爆“违规爬虫”必须位列其中。北上广深杭地区的多家大数据公司、爬虫公司、放贷公司等被查。目前监管层的监管已经进入银行层面。银行内部人士透露,银行已经收到了通知,称监管层要求银行填写是否与第三方数据公司开展合作。有业内资深分析人士告诉《华夏时报》记者,大数据公司爬取明确禁止或未被授权的信息,都算是违规的,爬取数据时会有一个robots协议,明确了网站中哪些内容是不应被抓取的,哪些是可以抓取的。

 未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。

回顾10月发生的大事,多家大数据公司被爆“违规爬虫”必须位列其中。北上广深杭地区的多家大数据公司、爬虫公司、放贷公司等被查。目前监管层的监管已经进入银行层面。银行内部人士透露,银行已经收到了通知,称监管层要求银行填写是否与第三方数据公司开展合作。有业内资深分析人士告诉《华夏时报》记者,大数据公司爬取明确禁止或未被授权的信息,都算是违规的,爬取数据时会有一个robots协议,明确了网站中哪些内容是不应被抓取的,哪些是可以抓取的。

大数据公司被查

根据百度百科介绍,网络爬虫(又称为网页蜘蛛),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。“通俗点来讲,爬虫它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。” 一位从业者王哈鲁对本报记者表示。

事实上,爬虫技术是具有相关数据业务的公司常用的一种技术。上述业内人士对本报记者坦言,百度、谷歌搜索最基本的技术就是爬虫,自动抓取网页及相关信息,然后做整合输出。至于会抓取到什么程度呢?“基本上能看到的都能被抓到。”该业内分析人士还对记者补充说,不显示并不代表不存在,用户曾经使用的有留存记录,即使删除可能还会保存在某数据库或服务器上,所以仍有被爬虫到的可能,不过对爬虫技术会有很高的要求。

大概是9月中旬前后开始,多家大数据公司出现大大小小的事情,起因大都是违规经营爬虫业务。多家大数据公司被警方调查,高管人员被带走,也停止了爬虫服务。9月6日,杭州魔蝎科技的一位核心高管人员被警方带走调查。同一天,新颜科技CEO也被警方要求协助调查。之后,还有多家大数据公司被警方调查,包括公信宝、集奥聚合、同盾科技、立木征信等,相应的爬虫业务也被迫关停。

行业也嗅到了危险,纷纷主动停止爬虫服务。在魔蝎科技、新颜科技被查后,第三方数据服务公司聚信立做出反应,并于2019年9月6日停止对外提供用户授权的运营商爬虫服务。爬虫服务平台白骑士、天机数据也已经暂停爬虫服务。值得一提的是,“爬虫”早在2017年下半年就已经陷入舆论的漩涡,源于一些大数据公司被曝出违规爬虫窃取现金贷放贷数据。

2017年现金贷发展迅猛,乱象丛生,暴露的问题也越来越多。现金贷成为众人口诛笔伐的对象。直到监管在2017年12月1日下发整顿现金贷的141号文,行业才有了改善。现金贷行业出现的问题之一是部分现金贷公司开发了“同业爬虫”产品,可以直接将其他现金贷公司的包括放贷额度、风控等相关数据爬取过来。这样一来,现金贷公司大大的减少了放贷成本,通过同业爬虫就可以解决问题,大数据公司的“爬虫技术”却日渐式微。

为了增强自身的竞争力,不少大数据公司打“擦边球”甚至不惜违规爬虫。2017年11月,有文章爆出大数据公司聚立信、魔蝎科技有偿为现金贷公司爬取放贷数据等,被爬取的公司包括支付宝、微信、其他现金贷公司。随后,魔蝎科技COO张俊九发布内部信表示,未来2个月,将逐渐关停爬虫业务,同时会启动向已签约客户的赔偿机制。这算是承认了公司存在的违规爬虫问题。

为防止个人信息泄露,行业内也出现了反爬虫技术。不过上述业内分析人士对本报记者坦言,爬虫、反爬虫、反反爬虫,永远是一个此消彼长的过程,只要爬数据产生的利益大于成本,就会有人去做。所以反爬虫的关键是加强技术升级,增加爬数据的成本,同时重点监控爬数据的对象,必要时诉诸法律。可怕的是,很多时候,我们根本不知道是谁在爬取数据。在移动互联网迅猛发展的时代,数据和流量对于互联网公司至关重要,为了两者甚至不惜一遍遍挑战监管的底线,最终将会遭到监管的重罚。

监管趋严

中国社会科学院金融研究所法与金融研究室副主任尹振涛曾接受本报记者采访时表示,催收不是一件小事情也不是新鲜事,现在出台了《网络安全法》,可能还会有《数据安全管理办法》、《个人金融信息(数据)保护试行办法》相继出台。

《网络安全法》于自2017年6月1日起正式实施,明确规定任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动;不得提供专门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具;明知他人从事危害网络安全的活动的,不得为其提供技术支持、广告推广、支付结算等帮助。网络数据,是指通过网络收集、存储、传输、处理和产生的各种电子数据。

2019年6月,网信办发布的《数据安全管理办法(征求意见稿)》是对《网络安全法》的细化,对网络运营者在数据收集、处理使用、安全监督管理等方面提出了要求,同时对公众关心的个人敏感信息收集方式、广告精准推送、账户注销难等问题做出了回应。

即将出台的《个人金融信息(数据)保护试行办法》则侧重于完善征信机制体制建设,将对金融机构与第三方之间征信业务活动等进一步做出明确规定,加大对违规采集、使用个人征信信息的惩处力度。违规爬虫的成本提升,网络数据环境或许会有所改善。

监管也许会迟到,但一定不会缺席。据财新报道,10月22日,北京金融局窗口指导摸排区内所有大数据公司是否存在违规爬虫业务,如果没有则要求公司做出承诺函,如果存在违规爬虫业务,要上报并尽快整改。

另外21世纪经济报道称,中国人民银行、中国银保监会已组成调查组,摸底大数据的使用边界和采集边界,将会涉及外包催收公司管理办法。首批排查和调研的机构包括一诺银华、万盛金融和平安普惠。其中,一诺银华是上海的一家资产处置公司,曾在2015年10月高调挂牌新三板,在取得挂牌同意函、全国建设分公司后,却因政策限制悄然退市。如今,另外一家催收公司湖南永雄又欲赴美上市,结果如何记者无从得知。

相关监管文件集中爆发。有银行内部人士透露,银行已经收到了通知,称央行发文紧急调研要求银行填写是否与第三方数据公司开展合作。排查内容涉及数据采集、信用欺诈、信用评分、风控建模方面,央行要求上报第三方数据公司的名字、股东背景、是否涉及爬虫。总归一句话,大数据公司将面临严监管,用户的个人信息也会得到维护。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

北京——2024年4月18日 西门子中国和亚马逊云科技双方高层在西门子中国北京总部会晤,双方宣布签署战略合作协议,共同成立“联合创新团队”。基于亚马逊云科技在生成式AI领域的领先技术和服务,并结合西门子在工业领域的深厚积...

关键字: 生成式AI 机器学习 大数据

2024年4月17日,中国 – 服务多重电子应用领域、全球排名前列的半导体公司意法半导体(STMicroelectronics,简称ST;纽约证券交易所代码:STM)将在2024年4月25日欧洲证券交易所开盘前公布202...

关键字: 半导体 数据

数据占满我们的电子设备已成常态,为了满足广大用户的需求,NAS应运而生。然而,对于许多普通用户来说,NAS设备的设置和使用却常常令人望而却步。不过,铁威马TOS 6的出现,不仅功能强大,而且操作简便,即使是初次接触NAS...

关键字: 数据 电子设备 NAS

赛诺贝斯开创性"三位一体"商业模式:领跑MarTech行业的创新引擎

关键字: 数字化 大数据 大模型 生成式AI

机器学习作为人工智能领域的重要组成部分,其过程涉及到多个核心环节。本文将详细阐述机器学习的四个主要步骤:数据准备、模型选择、模型训练与评估,以及模型部署与应用,以揭示机器学习从数据到应用的完整流程。

关键字: 数据 人工智能 机器学习

机器学习算法是人工智能领域中的核心技术之一,它通过对大量数据进行学习,自动发现数据中的规律和模式,从而实现对新数据的预测、分类、聚类等任务。本文将深入探讨机器学习算法的基本过程,包括数据准备、模型选择、训练与评估等关键步...

关键字: 数据 人工智能 机器学习

随着大数据时代的到来和计算能力的不断提升,机器学习作为人工智能领域的重要分支,正逐渐改变我们的生活方式和工作模式。机器学习涉及多个学科的理论和技术,其应用广泛且深入,为各个领域的发展带来了前所未有的机遇。那么,机器学习具...

关键字: 大数据 机器学习 人工智能

随着大数据时代的来临,数据的价值日益凸显,如何从海量数据中提取有用信息并转化为实际价值,成为各行各业关注的焦点。机器学习和数据挖掘作为两大核心技术,在数据分析和处理中发挥着越来越重要的作用。本文将通过几个典型的应用案例,...

关键字: 大数据 机器学习 数据挖掘

随着人工智能(AI)技术的迅速发展,人们对于通用人工智能(AGI,即Artificial General Intelligence)的期待也日益高涨。通用人工智能指的是具备像人类一样全面智能的计算机系统,能够执行各种复杂...

关键字: 人工智能 计算机 数据

随着互联网的迅猛发展,百度、阿里巴巴、腾讯等互联网巨头逐渐崭露头角,成为了行业的领军者。这些公司在云计算、大数据、人工智能等领域积累了丰富的经验和技术实力,为开发者提供了丰富的服务和工具。在这样的背景下,BAT模块应运而...

关键字: 互联网 云计算 大数据
关闭
关闭