当前位置:首页 > > 充电吧
[导读]身为驴(旅)友,花大把时间探索大千世界着实不错,如果运气好,找找宝藏,没准真能遇到堆满了金银财宝的“小金屋”。 不过,这都算不上离奇。最刺激的,宝藏被神秘人士仍在大街上,任你去取。连找的力气都省了,那

身为驴(旅)友,花大把时间探索大千世界着实不错,如果运气好,找找宝藏,没准真能遇到堆满了金银财宝的“小金屋”。

不过,这都算不上离奇。最刺激的,宝藏被神秘人士仍在大街上,任你去取。连找的力气都省了,那还不得乐昏过去?

或许你会问,世上哪有这等好事?别说,还真有!

近日,研究人员鲍勃·迪亚琴科( Bob Diachenko )和文尼·特罗亚( Vinny Troia )就发现了“宝箱”。

原来,这是一个 Elasticsearch 服务器,其中包含12亿用户账户,该服务器被公开在暗网上,任何人都可以“到此一游”。

数据来自何方?

研究人员分析,当人们通过 BinaryEdge 和 Shodan 寻找公开信息时,偶然发现服务器的IP地址可以追溯到 Google Cloud Services 。总体而言,该数据库存储着超过 4 TB 的公开数据供公众访问。

作为全文检索搜索引擎的核心技术, Elasticsearch 作为基于 Lucene 库的搜索引擎而存在,其被应用于企业信息网站、媒体网站、政府站点、商业网站、数字图书馆和搜索引擎中。

查看研究人员分享的详细信息后发现,该数据是从社交媒体平台(包括 Twitter , Facebook , LinkedIn 和 GitHub )中抓取,而该平台同样为 Git (一个开源的分布式版本控制系统)的存储库执行托管服务。

这些数据在服务器中被分类成四个不同的数据集,其中三个被标记为“ People Data Labs ”的数据代理,而另一个则被标记为“ OxyData ”的数据代理。

Troia 称,他在 People Data Labs ( PDL )中发现了自己 10 年前在 AT&T 公司办理的一个固话号码。这个号码他从未使用过,但是当时录入的信息却被保留在了这里。

经研究发现,在该服务器中包含了近 30 亿 PDL 用户记录,近 12 亿唯一人员和 6.5 亿唯一电子邮件地址。

这些数据数量不光与 PDL 公司的宣传相符,甚至研究人员还可以通过 PDL API 返回的信息来反向查询这些数据。

另外,研究人员通过将数据库和上述两家公司的公开数据进行比对,发现至少在一定程度上源自它们。研究人员在博客文章中专门针对 PDL 的措辞进行了详细说明:

在打开的 Elasticsearch 服务器上发现的数据几乎与 People Data Labs API 返回的数据完全匹配。唯一的区别是 PDL 返回的数据还包含教育历史记录。

从服务器下载的任何数据中都没有教育信息。其他所有内容都完全相同,包括具有多个电子邮件地址和多个电话号码的帐户。

但是, PDL 联合创始人 Sean Thorne 否认公司拥有该服务器的说法,并称,该服务器的所有者可能使用了 PDL 提供的一种扩充产品,以及其他数据扩充或许可性服务。

另一方面,4 TB 用户数据(包括 3.8 亿个配置文件)被证实来自OxyData公司,但是该公司同样回应称并没有服务器的所有权。

截止目前,研究人员并不能确定是谁将服务器公开在互联网上,但信息泄露意味着将会影响到两家公司的共同客户,并使其面临数据滥用的风险。

不是头一次了

除了这次事件, Elasticsearch 服务器曾多次被向公众公开,这同样将毫无戒心的用户和企业的个人数据置于风险之中:

今年早些时候,Elasticsearch服务器上公开了超过2000万俄罗斯公民的个人信息。

今年5月,在 Freedom Mobile 拥有的 Elasticsearch 数据库在线泄漏后,具有数百万加拿大人 CVV 码的个人和支付卡数据再次暴露。

去年 12 月,另一个包含 8200 万美国人个人信息的数据库在网上暴露了出来。

Elasticsearch 服务器有关的数据泄漏事件屡屡出现,也吸引了大量攻击者的目光,因为这可能成为其攻击行动的切入点。

Cequence Security 公司的一名黑客 Jason Kent 评论称,“我们看到一种不同于以往的全新且具有潜在危险的数据关联。如果攻击者持有丰富的数据集,那么就能够制作针对性极高的攻击。这种攻击可导致密码恢复信息、财务数据、通信模式、社会结构等被暴露,这是高级别在位人员可遭针对性攻击的方式。

联邦调查局尚未回应

两名研究员将这一发现上报了联邦调查局,尽管通常情况下几个小时内 Elasticsearch 服务器即可完成数据脱机操作。但是,后者在收到消息后并未给出明确回复。

ARM Insight 首席执行官 Randy Koch 分析,此次大规模数据泄露事件对那些被看成持有数据所有权的企业来说造成巨大破坏,同时也会造成数十亿人的信息外泄到世界各地。

所包含的个人数据如此庞大,加上识别数据所有者很复杂,因此有可能会引发我们现行隐私和数据泄露通知法律有效性的问题。

如果具有数据掌控权的公司将其用户信息收集并进行集中合成,则可以有效预防此事件,因为数据合成的过程在模仿真实数据的同时消除了用户的可识别特征。

正确合成后,它就不能被黑客进行逆向工程,并同时保留了原始数据集的所有统计价值,因此它仍然可以用于分析、市场营销、客户细分和AI算法训练等等。

但是,集中数据会抵消作为数据掌控企业的名誉,且在隐私、合规性上也颇具风险。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

在人工智能的发展历程中,我们往往认为更多的训练、更复杂的数据能让 AI 变得更加智能。然而,近期一些研究却揭示了令人意外的现象:对小型 AI 语言模型进行数学训练时,过度训练可能会导致其表现急剧下降,甚至出现 “变笨”...

关键字: 人工智能 数据 模型

I2C 总线的起始条件和终止条件通常由主机产生。起始条件是在 SCL 高电平时,SDA 从高电平转为低电平;而终止条件则是当 SCL 高电平时,SDA 从低电平转化为高电平。这两个条件的准确识别对于 I2C 通信的正确启...

关键字: I2C 总线 数据 协议

在AI数据产业中,数据精准度=验收合格数量/全部数量,这意味极高的精准度不仅要满足一些客观标准,还需要与AI项目方的需求深度契合,通过基于需求的验收过程。

关键字: AI 数据

基于使用困难报告系统(SDRS)对钻石DA20飞机的故障数据进行分析 。基于SDRS系统收集到的数据 , 结合故障分类方法 ,对钻石DA20飞机的不同故障进行研究 ,并提出相应的解决措施 ,有利于提高钻石DA20飞机机队...

关键字: SDRS DA20飞机 故障 数据

在当今数字化时代,数据如同流淌在信息高速公路上的血液,驱动着各个领域的创新与发展。而在嵌入式视觉领域,高速数据传输正扮演着越来越关键的角色,它不仅是实现实时、精准视觉感知的基础,更是开启未来智能应用无限可能的钥匙。

关键字: 数据 视觉 传输

在如今数字化的时代,SD 卡作为一种常见的存储设备,承载着我们大量珍贵的记忆和重要的资料,如精彩的照片、珍贵的视频以及关键的文档等。然而,令人头疼的是,SD 卡数据丢失的情况时有发生,可能是由于误删除、格式化、病毒感染、...

关键字: 内存卡 数据

如今,我们正处于一个被无处不在的数据及高耗电应用所驱动的信息计算世界中,使得电源管理成为了不同系统、网络和软件所面临多方面挑战中的不可忽视的一环。

关键字: 数据 高耗电 电源管理

近年来,国内某知名钢铁集团致力于推动传统钢铁主业的高质量发展,通过提高电控自动化水平,进一步优化产品质量和产能效率,不断提升市场竞争力。

关键字: 魏德米勒 电力 信号 数据

北京——2024年4月30日 亚马逊云科技持续引领云上数据服务创新,助力企业构建全面的数据基座以充分发挥数据潜力,加速生成式AI技术落地。在生成式AI时代,数据是企业脱颖而出的关键——基础模型依赖于大规模高质量数据集,生...

关键字: 生成式AI 数据 模型

全新的专有模型导入功能让客户更轻松地将其专属模型导入到Amazon Bedrock中,从而充分利用Amazon Bedrock的强大功能。全新的模型评估功能使客户能够广泛且便捷地选择完全托管模型,包括RAG优化的新版Am...

关键字: 生成式AI 基础模型 数据
关闭