当前位置:首页 > 芯闻号 > 充电吧
[导读]我们知道,大部分Spark计算都是在内存中完成的,所以Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张,CPU,网络带宽,内存。Spark的性能,想

我们知道,大部分Spark计算都是在内存中完成的,所以Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张,CPU,网络带宽,内存。Spark的性能,想要它快,就得充分利用好系统资源,尤其是内存和CPU。有时候我们也需要做一些优化调整来减少内存占用,例如将小文件进行合并的操作。

一、问题现象

我们有一个15万条总数据量133MB的表,使用SELECT * FROM bi.dwd_tbl_conf_info全表查询耗时3min,另外一个500万条总数据量6.3G的表ods_tbl_conf_detail,查询耗时23秒。两张表均为列式存储的表。

大表查询快,而小表反而查询慢了,为什么会产生如此奇怪的现象呢?

二、问题探询

数据量6.3G的表查询耗时23秒,反而数据量133MB的小表查询耗时3min,这非常奇怪。我们收集了对应的建表语句,发现两者没有太大的差异,大部分为String,两表的列数也相差不大。

CREATE TABLE IF NOT EXISTS `bi`.`dwd_tbl_conf_info` ( `corp_id` STRING COMMENT '', `dept_uuid` STRING COMMENT '', `user_id` STRING COMMENT '', `user_name` STRING COMMENT '', `uuid` STRING COMMENT '', `dtime` DATE COMMENT '', `slice_number` INT COMMENT '', `attendee_count` INT COMMENT '', `mr_id` STRING COMMENT '', `mr_pkg_id` STRING COMMENT '', `mr_parties` INT COMMENT '', `is_mr` TINYINT COMMENT 'R', `is_live_conf` TINYINT COMMENT '' ) CREATE TABLE IF NOT EXISTS `bi`.`ods_tbl_conf_detail` ( `id` string, `conf_uuid` string, `conf_id` string, `name` string, `number` string, `device_type` string, `j_time` bigint, `l_time` bigint, `media_type` string, `dept_name` string, `UPDATETIME` bigint, `CREATETIME` bigint, `user_id` string, `USERAGENT` string, `corp_id` string, `account` string )

因为两张表均为很简单的SELECT查询操作,无任何复杂的聚合join操作,也无UDF相关的操作,所以基本确认查询慢的应该发生的读表的时候,我们将怀疑的点放到了读表操作上。通过查询两个查询语句的DAG和任务分布,我们发现了不一样的地方。

查询快的表,查询时总共有68个任务,任务分配比如均匀,平均7~9s左右,而查询慢的表,查询时总共1160个任务,平均也是9s左右。如下图所示:

至此,我们基本发现了猫腻所在。大表6.3G但文件个数小,只有68个,所以很快跑完了。而小表虽然只有133MB,但文件个数特别多,导致产生的任务特别多,而由于单个任务本身比较快,大部分时间花费在任务调度上,导致任务耗时较长。

那如何才能解决小表查询慢的问题呢?

三、业务调优

那现在摆在我们面前就存在现在问题:

为什么小表会产生这么小文件 已经产生的这么小文件如何合并

带着这两个问题,我们和业务的开发人员聊了一个发现小表是业务开发人员从原始数据表中,按照不同的时间切片查询并做数据清洗后插入到小表中的,而由于时间切片切的比较小,导致这样的插入次数特别多,从而产生了大量的小文件。

那么我们需要解决的问题就是2个,如何才能把这些历史的小文件进行合并以及如何才能保证后续的业务流程中不再产生小文件,我们指导业务开发人员做了以下优化:

使用INSERT OVERWRITE bi.dwd_tbl_conf_info SELECT * FROM bi.dwd_tbl_conf_info合并下历史的数据。由于DLI做了数据一致性保护,OVERWRITE期间不影响原有数据的读取和查询,OVERWRITE之后就会使用新的合并后的数据。合并后全表查询由原来的3min缩短到9s内完成。 原有表修改为分区表,插入时不同时间放入到不同分区,查询时只查询需要的时间段内的分区数据,进一步减小读取数据量。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

美光坚持多元、平等、包容的企业文化,携手社区推行公益

关键字: 内存 存储 美光

e络盟现可向全球客户供应Alliance Memory产品

关键字: 存储 eMMC 闪存IC

2024年3月20日,2024中国闪存市场峰会(CFMS2024)在深圳宝安前海·JW万豪酒店盛大举办。本次峰会以“存储周期、激发潜能”为主题,共同探讨在供需关系依然充满挑战的大环境下,未来存储市场的变化,以及如何挖掘产...

关键字: SSD 存储 AI

2024年3月20日,深圳 —— 今日,以“存储周期·激发潜能”为主题的中国闪存市场峰会在深圳拉开帷幕。Solidigm携多元创新技术和丰富产品组合亮相,Solidigm亚太区销售副总裁倪锦峰登台发表了题为《夯实存力基础...

关键字: AI 存储 大语言模型

在下述的内容中,小编将会对硬盘的相关消息予以报道,如果硬盘是您想要了解的焦点之一,不妨和小编共同阅读这篇文章哦。

关键字: 硬盘 存储

最新发布的平台增强功能帮助客户利用单一管理层加强数据存储环境的管控,有效简化端到端操作

关键字: 存储 数据中心 可持续发展

2024年3月15日,由东芝硬盘与中国地区代理商喜和香港有限公司联合主办主题为“生而坚韧 敢越山海”的2024东芝硬盘核心渠道商大会圆满成功。此次盛会汇聚了来自全国各地的众多核心渠道经销商,共襄盛举。东芝电子元件(上海)...

关键字: 存储 硬盘 人工智能

业内消息,韩媒称三星电子已将西安工厂的NAND闪存开工率至 70%。西安工厂是三星电子唯一处于韩国境外的存储半导体生产基地,月产能为 20 万片 300mm 晶圆,占三星整体 NAND 产量的 40%。

关键字: 三星 NAND 闪存 存储

近日,国内高端存储品牌——佰维存储正式官宣与TES英雄联盟战队达成深度合作,成为TES官方唯一指定存储品牌。佰维存储与TES战队将携手共同助力中国电竞产业蓬勃发展,为电竞行业注入更多硬核科技元素,让更多的玩家感受专业电竞...

关键字: 硬件 存储

HBM高带宽存储芯片被广泛应用于最先进的人工智能(AI)芯片,据业界消息,英伟达的质量测试对存储厂商提出挑战,因为相比传统DRAM产品,HBM的良率明显较低。

关键字: HBM 良率 存储 英伟达 测试
关闭
关闭