[导读]在先前的文章中《近距离看GPU计算(2)》,我们谈到GPU相比CPU有更大的内存带宽,此言不虚,这也是众核GPU有源源不断数据弹药供给,能够发挥强大算力的主要原因。如下表所示(GDDR和HBM都是GPU的显存规格),基本上GPU的内存带宽要比CPU多一个数量级。但是考虑到GPU运...
在先前的文章中《近距离看GPU计算(2)》,我们谈到GPU相比CPU有更大的内存带宽,此言不虚,这也是众核GPU有源源不断数据弹药供给,能够发挥强大算力的主要原因。如下表所示(GDDR和HBM都是GPU的显存规格),基本上GPU的内存带宽要比CPU多一个数量级。但是考虑到GPU运算核心的数量,平均下来显存带宽真的足够富裕吗?参考资料1的《Memory bandwidth》文章提供了很有趣的视角,我们在这里介绍下。MOS 6502发布于1975年,是微型计算机发展史上非常重要的一块芯片。6502一般运行在1M时钟频率,每个时钟可以访问1Byte内存数据,6502的一条指令需要花费3~5个时钟,所以平均下来每条指令大概可以获得4B内存数据。与此相对照,Intel的Core
i7-7700K是一款目前比较主流的桌面CPU,运行频率4.2G,内存带宽大概50GB/s。i7-7700K一共有4个处理核心,所以每个核心大概可以均摊到12.5GB/s的内存带宽,也就是每个时钟可以访问约3B的内存数据。该CPU的IPC(Instruction Per Clock)为1,极优化的代码可以达到的IPC为3,按此计,每条指令可得1B的内存数据,跟老前辈6502相比,已经落后不少。更进一步,现代CPU支持256位长度的SIMD指令,每个时钟最多执行3条指令,类比GPU,我们以32位为一个通道作为单独执行线程,这样每个时钟我们一共有24条指令执行,所以每条指令可以访问0.125B内存数据或者说每8条指令得到1B内存数据。我们再回过头来看看GPU的情形。以NVidia
GeForce GTX 1080Ti为例,内存带宽484GB/s,处理单元工作频率为1.48G,所以对整个GPU来说,每个时钟大概可以访问327B内存数据。这个GPU一共有28个SM(类似CPU的处理核心),每个SM有128个SP,所以总共有3584个SP(类似先前SIMD32位通道)。这样每个SM一个时钟大概可以访问11.7B的内存数据,平均到128个SP,一个SP一个时钟得到0.09B数据,换个好听的说法就是每11条指令可以得到1B内存数据,比CPU的指标还恶劣。需要再次重申的是,因为设计目标的问题,CPU其实更关注访存延迟指标,所以相形之下,内存带宽的压力对GPU更为显著。这也是为什么我们先前说过的GPU也开始配置多级Cache的原因,除了改善访存延迟,也可以降低内存带宽压力。另外我们在《GPU历史之二三事》里也提到Nvidia和AMD都开始拥抱移动GPU常用的TBR(Tile Based Rendering)的绘制技术,内存带宽的压力也应该是重要的驱动因素。而作为软件人员,在设计算法的时候,我们要重视算法的运算强度(见《Roofline模型初步》),要充分利用片上内存包括硬件Cache和软件Cache(Shared Memory),以及注意内存的合并访问(Memory Coalescing)等等来优化内存带宽。主要参考资料:- https://fgiesen.wordpress.com/2017/04/11/memory-bandwidth/
~~~~~~~~~~~~~~~~~~~~~~~~~~~~如果觉着内容有帮助,请帮忙关注、点赞、在看并分享给更多的朋友。谢谢!
本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
北京——2024年4月25日 我们的客户选择亚马逊云科技运行他们的关键应用程序和最敏感的数据。每天,世界上发展最快的初创公司、最大的企业和最值得信赖的政府机构都选择亚马逊云科技作为技术基础设施平台。他们之所以选择亚马逊云...
关键字:
GPU
计算
生成式AI
据报道,日本电信巨头软银集团将在未来两年投资1500亿日元(9.6亿美元)升级其计算设施,该计划包括大量采购英伟达GPU。
关键字:
软银
英伟达
GPU
AI
4月24日消息,特斯拉CEO马斯克在最近的财报电话会议上透露,特斯拉的Optimus人形机器人预计将在今年底前具备执行“有用的”工厂任务的能力,并有望在2025年底前推向市场。这一消息引发了业界和公众的广泛关注。
关键字:
马斯克
AI
特斯拉
GPU
近日媒体Business Insider透露称,微软目前正在疯狂囤货GPU,目标在2024年12月前达到180万片。微软本次采购的 GPU 主要来自英伟达公司,不过微软也计划采购 AMD 等其它公司的 GPU 进行扩充。
关键字:
微软
GPU
Apr. 16, 2024 ---- NVIDIA新一代平台Blackwell,包含B系列GPU及整合NVIDIA自家Grace Arm CPU的GB200等。TrendForce集邦咨询指出,GB200的前一代为GH2...
关键字:
CPU
GPU
据韩联社报道,上周三星电子发布业绩报告显示,随着芯片价格反弹,预计今年第一季度营业利润同比骤增931.25%,为6.6万亿韩元(当前约合人民币354.6亿元),已经超过了2023年全年营业利润6.57万亿韩元。
关键字:
内存
三星
联发科官方近日宣布,天玑开发者大会(MDDC 2024)将于5月7日在深圳隆重开幕。此次大会以“AI予万物”为核心议题,旨在汇聚全球开发者智慧,共同探讨AI技术在多元领域的应用前景与发展动向。届时,众多行业领袖与资深专家...
关键字:
生成式AI
GPU
天玑
4月9日消息,据媒体报道,马斯克最近表示,首艘无人驾驶的星舰将会在五年内登陆火星,或将在接下来的七年内实现第一批人类登陆火星。
关键字:
马斯克
AI
特斯拉
GPU
TDK 株式会社(TSE:6762)进一步扩充 Micronas 嵌入式电机控制器系列 HVC 5x,完全集成电机控制器与 HVC-5222D 和 HVC-5422D,以驱动小型有刷(BDC)、无刷(BLDC)或步进电机...
关键字:
嵌入式
电机控制器
内存
Apr. 04, 2024 ---- TrendForce集邦咨询针对403震后各半导体厂动态更新,由于本次地震大多晶圆代工厂都位属在震度四级的区域,加上台湾地区的半导体工厂多以高规格兴建,内部的减震措施都是世界顶尖水平...
关键字:
晶圆代工
内存
美光坚持多元、平等、包容的企业文化,携手社区推行公益
关键字:
内存
存储
美光
今天,小编将在这篇文章中为大家带来虚拟内存的有关报道,通过阅读这篇文章,大家可以对虚拟内存具备清晰的认识,主要内容如下。
关键字:
内存
虚拟内存
在这篇文章中,小编将对虚拟内存的相关内容和情况加以介绍以帮助大家增进对它的了解程度,和小编一起来阅读以下内容吧。
关键字:
内存
虚拟内存
以下内容中,小编将对物理内存的相关内容进行着重介绍和阐述,希望本文能帮您增进对物理内存的了解,和小编一起来看看吧。
关键字:
内存
物理内存
3月20日消息,全球最强AI芯片GB200横空出世,使得这届GTC 2024大会热度空前,也让英伟达创始人兼CEO黄仁勋再一次成为全球焦点人物。
关键字:
英伟达
GPU
芯片
The Weather Company 和台湾气象部门成为首批采用全新 Earth-2 云 API 的机构,使用 AI 加速全球气候和天气高分辨率模拟和可视化,突破性地实现 2 公里尺度
关键字:
AI
数字孪生
GPU
3月19日消息,在英伟达年度 GTC 开发者大会上,黄仁勋宣布推出推出了Project GR00T人型机器人项目,其中就包括全球首款人型机器人基础模型。
关键字:
英伟达
GPU
芯片
3月19日消息,在英伟达GTC 2024大会上,英伟达CEO黄仁勋宣布推出新一代GPU Blackwell。
关键字:
英伟达
GPU
芯片
基于先进的 NVIDIA 网络、NVIDIA 全栈 AI 软件和存储技术,可将集群中 Grace Blackwell 超级芯片的数量扩展至数万个,通过 NVIDIA NVLink可将多达 576 块 Blackwell...
关键字:
生成式 AI
超级计算
GPU
NVIDIA cuLitho 可将半导体制造中高度计算密集型的工作负载加快 40-60 倍,并为业界带来全新的生成式 AI 算法
关键字:
生成式 AI
半导体
GPU