当前位置:首页 > 物联网 > 智能应用
[导读]基数是数据集中不同项目的数量。无论是计算网站上的唯一用户数量还是估计不同搜索查询的数量,估计基数在处理大量数据集时都变得具有挑战性。这就是超置式算法进入图片的地方。在本文中,我们将探讨HyperLoglog及其应用程序背后的关键概念。

基数是数据集中不同项目的数量。无论是计算网站上的唯一用户数量还是估计不同搜索查询的数量,估计基数在处理大量数据集时都变得具有挑战性。这就是超置式算法进入图片的地方。在本文中,我们将探讨HyperLoglog及其应用程序背后的关键概念。

Hyperloglog

HyperLogLog是一种概率算法,旨在估计具有高精度和低内存使用情况的数据集的基数。

计算不同项目的传统方法需要存储到目前为止所看到的所有项目,例如将所有用户信息存储在用户数据集中,这可以快速消耗大量内存。另一方面,HyperLogLog使用固定数量的内存,几千字节,并且仍然提供了对基数的准确估计,使其非常适合大规模数据分析。

用例

在以下情况下,HyperLogLog特别有用:

有限的内存

如果使用大量数据集(例如数百万用户或网络流量数据的日志),则由于内存限制,存储每个唯一项目可能是不可行的。

近似计数

在许多情况下,不需要确切的计数,并且良好的估计是足够的。 HyperlogLog给出了一个估计值,该估计值与真实值足够接近,而没有精确计算的开销。

流数据

当使用连续的数据流(例如实时网站流量或社交媒体供稿)时,超置换件可以更新其估算值,而无需重新访问过去的数据。

一些值得注意的应用程序用例包括以下内容:

· Web分析:估计访问网站的唯一用户数量。

· 社交媒体分析:计算社交媒体流中独特的主题标签,提及或其他不同项目。

· 数据库系统:有效地计数大型数据库中的不同键或值。

· 大数据系统:诸如Apache Hadoop和Apache Spark之类的框架使用HyperLoglog来计算大数据管道中的不同项目。

· 网络监控:估计网络流量分析中不同IP地址或数据包的数量。

现有实现

HyperLoglog已以各种语言和数据处理框架实现。一些实现超闸纸的流行工具如下:

· REDIS提供了HyperLogLog的本机实现PFADD,以通过PFCOUNT和PFMERGE命令进行近似的基数估算。 REDIS允许用户在消耗最小内存的同时有效地跟踪数据集中的独特项目。

· Google BigQuery提供了一个名为的内置函数APPROX_COUNT_DISTINCT,该功能使用超置logog来估计大数据集中不同项目的数量。 BigQuery通过使用HyperLoglog来提供高效的心脏估算,而无需全部数据来优化查询处理。

· Apache DataSketches是用于近似计算的算法集合,包括HyperLogLog。它是在Java中实现的,通常用于用于大规模数据处理的分布式计算环境中。

· Python软件包HyperlogLog 是 超置池的实现,可让您计算具有较小内存足迹的数据集的近似基数。

· 该函数approx_count_distinct可在Pyspark的DataFrame API中获得,并用于计算数据框列中不同值的近似计数。它基于HyperLogLog算法,提供了一种高度记忆有效的估计不同计数的方法。

示例用法

from pyspark.sql import SparkSession

from pyspark.sql import functions

spark=SparkSession.builder.appName('Test').getOrCreate()

df = spark.createDataFrame([("user1", 1), ("user2", 2), ("user3", 3)])

distinct_count_estimate = df.agg(functions.approx_count_distinct("_1").alias("distinct_count")).collect()

print(distinct_count_estimate)

逻辑

HyperLoglog背后的基本思想是使用哈希功能将数据集中的每个项目映射到一系列值的位置。通过分析这些项目的位置,该算法可以估计存在多少不同的项目而不明确存储它们。这是其工作原理的分步分类:

1. 集合中的每个项目都使用哈希函数进行哈希。哈希函数的输出是二进制字符串。

2. HyperLogLog专注于哈希值的二进制表示中的领先零。领先的零,值越稀有。具体来说,跟踪了哈希中第一个位的位置,这使您可以了解不同项目数量的大小。

3. HyperLogLog将可能的哈希值的范围分为多个存储桶或寄存器。每个寄存器都跟踪对该寄存器的任何项目观察到的最多的领先零。

4. 处理所有项目后,HyperLogLog结合了所有寄存器的信息以计算基数的估计。登记率越多,观察到的领先零的数量越高,估计值就越准确。

HyperLogLog提供了一个误差范围的估计值。错误率取决于算法中使用的寄存器数量。使用的寄存器越多,误差余量越小,但内存使用量越高。可以根据应用程序的需求进行微调进行微调。

优势

以下是使用超置槽的一些关键优势。

空间复杂性

与需要存储每个唯一项目的传统方法不同,HyperLoglog使用固定数量的内存,与不同项目的数量对数缩放。这使其非常适合大规模数据集。

时间复杂性

在处理速度方面,HyperLogLog高效。它需要为处理的每个项目持续时间,使其适用于实时或流媒体应用程序。

可伸缩性

HyperLogLog与大型数据集相当良好,并且经常用于分布式系统或数据处理框架中,其中需要大量数据。

简单

该算法相对简单实现,并且不需要复杂的数据结构或操作。

其他方法

还有其他几种用于基数估计的方法,例如计数米草图和Bloom过滤器。尽管这些方法中的每一种都具有其优势,但HyperLoglog在准确性和空间复杂性之间的平衡方面脱颖而出。

布卢姆过滤器

Bloom过滤器非常适合检查是否存在物品,但它们没有提供基数估计。另一方面,HyperLogLog可以估计基数,而无需存储所有物品。

计数素描

这是用于频率估计的概率数据结构,但是在基数估计中,它需要比超置槽更多的存储器。

结论

HyperLogLog是一种非常有效且准确的算法,用于估计大数据集中的基数。利用概率技术和哈希功能将允许使用最少的内存使用量处理大数据,这使其成为数据分析,分布式系统和流数据应用程序的必不可少的工具。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭