[导读]在《近距离看GPU计算》系列第一篇里我们介绍了GPU的一些基础知识及其如何从图形加速设备演化到通用计算平台。本文我们会具体从处理单元设计和存储层次结构两个方面探讨GPU不同于CPU的特点,再次确认我们反复申明的GPU更重视整体的Throughput而CPU更在乎具体任务的Late...
在《近距离看GPU计算》系列第一篇里我们介绍了GPU的一些基础知识及其如何从图形加速设备演化到通用计算平台。本文我们会具体从处理单元设计和存储层次结构两个方面探讨GPU不同于CPU的特点,再次确认我们反复申明的GPU更重视整体的Throughput而CPU更在乎具体任务的Latency。CPU和GPU从一开始就是为不同的目标而设计,CPU虽然也可以同时执行多个线程,但其旨在高效地处理串行指令,通过许多复杂技术优化提高指令级并行以便可以尽快执行串行程序。而GPU却是生而为同时执行成千上万个线程,牺牲单个线程性能换取整体性能最大化。下图对CPU与GPU的抽象架构进行了比对,其中Control是控制器、Core是处理单元、Cache指的是各级缓存、DRAM就是内存。我们可以看到GPU设计者将更多的晶体管用作执行单元,而不是像CPU那样用作复杂的控制逻辑和缓存。在下面章节里,我们会具体讨论这两种设计面向带来的影响,在本文讨论里笔者尽量不拘泥具体产商的特定GPU产品,而是希望能给出一般的指引,但是因为文本材料的优势以及在通用计算领域明显的优势地位,我们大概还是不能脱离Nvidia GPU的语境, AMD GPU的处理单元设计细节与Nvidia有较大不同,以后我们可以专文讨论。一,SIMT和硬件多线程根据计算机历史上有名的的费林分类法(Flynn's Taxonomy),如下图所示计算机体系架构可以简单分为四类,分别是:- 单一指令流单一数据流计算机(SISD, Single Instruction Single Data)
- 单一指令流多数据流计算机(SIMD, Single Instruction Multiple Data)
- 多指令流单一数据流计算机(MISD, Multiple Instruction Single Data)
- 多指令流多数据流计算机(MIMD, Multiple Instruction Multiple Data)
单核CPU可以归类为SISD,多核CPU属于MIMD。我们重点关注的SIMD指的是采用一个控制器来控制多个处理单元,同时对一组数据的元素分别执行相同的操作从而实现空间上并行的技术。传统CPU的指令扩展SSE和NEON都属于典型的SIMD。现代GPU在SIMD基础上发展出SIMT(Single Instruction Multiple Thread)的执行架构。传统SIMD是一个线程调用向量处理单元(Vector ALU)执行向量指令来操作向量寄存器完成运算,而SIMT往往由一组标量处理单元(Scalar ALU)构成,每个处理单元对应一个硬件线程,所有处理单元共享指令预取/译码模块并接收同一指令共同完成SIMD类型运算,运行其上的线程可以有自己的寄存器堆,独立的内存访问寻址以及执行分支。我们以Nvida CUDA为例来介绍SIMT是如何运作的。下图是有关分发CUDA的计算任务到GPU硬件上执行,展示了软硬件视角各个层级的对应关系。我们先介绍层级图右面的GPU硬件层次,CUDA的GPU有很多SM(Streaming Multiprocesso)组成。一个SM又有很多SP(Streaming Processor)构成,SP是每个线程具体执行指令所在,SP也采用流水线设计以提高指令级并行,但它一般都是顺序执行,很少使用分支预测、动态执行等复杂技术。在GPU通用计算语境下GPU设备上执行的程序被称为Kernel,针对某个Kernel分发的所有线程都执行相同的程序,这些线程被组织成一系列层次结构,也就是Grid和Block,如层级图左边所示。Grid规定各个维度Block的数量,Block规定各个维度线程的数量,它们的尺寸大小都是在CUDA程序中分发Kernel时指定。下图程序中vecAdd就是Kernel程序,Kernel的分发是由<<<...>>>语法定义,其中规定了要分发的Kernel程序,Grid和Block的尺寸,以及Kernel程序的参数。在实际执行过程中,GPU会以Block为单位,把相同Block的线程分配给同一个SM进行运算,Block中的线程可以通过Shared Memory交换数据(注:Shared Memory访问性能类似L1,与Cache由硬件控制对软件透明不同,Shared Memory由软件显式移动数据),并支持相互同步操作。在硬件内部,Block进一步会被为分组成Warp,Warp是GPU硬件最小调度单位,Warp内的线程被分配给SP按照SIMD的模式工作,也就是这些线程共享同样的PC(程序计数器),以锁步(Lockstep)的方式执行指令。目前支持CUDA的GPU其Warp大小都是32,SM中SP的数量可能只有8或者16,在这种情况下,一条指令Warp需要跨几个时钟分批执行。我们再来看下GPU硬件可以支持的线程数量,以Fermi GF100为例,该GPU一共有16个SM,每个SM最多可以容纳48个Warp,也就是1536个线程,整个GPU可以支持24576 个线程同时在线。我们可以与CPU对照下,消费级CPU一般有2~8个核,就算打开Hyperthreading,一共也就支持十几个硬件线程同时在线。为了避免一些高延迟指令引起处理单元流水线停顿,CPU和GPU采取了完全不同的做法。- CPU的做法是一方面穷尽所能充分挖掘指令级并行来规避,另一方面通过各级Cache来掩盖访问内存延迟,万不得已CPU才会切换到别的硬件线程执行。硬件线程数量太多切换太频繁即使有助于整体吞吐却恶化单个线程的延迟对CPU设计来说也是不可接受的,所以我们可以看到Hyperthread的数目一般都比较少。
- GPU的做法是另外一种思路,大规模数据并行带来海量的可执行线程,GPU完全可以通过切换到别的线程Warp来规避指令延迟带来处理单元的停顿。这种切换会非常频繁,需要在很短时间完成(比如一个时钟),所以无论每个线程执行需要的的寄存器堆还是Block之内线程的Shared Memory从一开始就要分配妥当,切换过程中线程上下文一直驻留,直到线程或者整个Block执行结束才能释放。所以相比CPU,GPU的Register File大小非常惊人,而其处理单元的设计却可以异常简单。二,GPU的Memory Hierarchy
根据我们先前文章《多线程计算平台的性能模型
》的观察,一方面GPU通过同时运行很多简单的线程,不使用或者只利用相对较小的Cache,而主要通过线程间的并行来隐藏内存访问延迟。另一方面显存带宽对整体计算吞吐又有重要意义,直接关系到GPU性能伸缩能力。所以如下图所示,GPU存储层次设计的时候,相比Latency,更重视Throughput,而且各级存储容量相对偏小。以Fermi GF100 GPU为例,下图是其存储层次结构,Fermi GPU是CUDA GPU第一次添加L1和L2的支持,其中L1和Shared Memory共享同一块片上内存,每个SM各64K大小,可以根据要求以48K/16K或者16K/48K在L1和Shared Memory之间分配。下面表格是几代CUDA GPU的L1、L2和Register File大小配置。我们可以看到最早的CUDA GPU也就是G80都没有通用的L1和L2,只有16K的Shared Memory。至于为什么添加Cache的支持,主要是考虑到对某些应用来说可能没有足够的数据并行来掩藏访存延迟,而对另外一些应用其数据重用模式不可预测无法有效利用软件控制的Shared Memory,总之是为了让GPU变得更通用,能够兼容更多的计算范式。饶有趣味的是,对GF100,RF大小总共为2048K,L1为48x16=768K,L2也是768K,RF反而比L1和L2都要大,而L1和L2差不多,其它GPU也有类似现象,这好像大大颠覆了我们之前在《衡量计算效能的正确姿势(3)》了解的CPU存储层次类似金字塔型的结构,不知道读者们有何感想?夏日炎炎不是读书天,这篇文章拖了好长时间,实在无法忍受才终于出炉,文章内容都是纸上功夫,请各位看官抱将信将疑的态度,如果有明显错误,欢迎后台留言纠正。下篇不知又要到什么时候,这次就先不预告内容了。主要参考资料:- Many-core vs many-thread machines: Stay away from the valley
- Cuda C Programming Guide
- CUDA Warps and Occupancy
- SIMD < SIMT < SMT: parallelism in NVIDIA GPUs
- The Top 10 Innovations in the New NVIDIA Fermi Architecture, and the Top 3 Next Challenges
~~~~~~~~~~~~~~~~~~~~~~~~~~~~如果觉着内容有帮助,请帮忙关注、点赞、在看并分享给更多的朋友。谢谢!
本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除( 邮箱:macysun@21ic.com )。
当地时间 3 月 30 日消息,法国大模型厂商 Mistral AI 完成首轮债务融资,总额达8.3 亿美元,资金将全部用于扩建 AI 算力基础设施,核心用途为采购英伟达 GPU。
关键字:
AI
Mistral
英伟达
GPU
面向所有热爱硬核技术的你:这一次,用代码说话,用性能封神。 北京2026年3月25日 /美通社/ -- 在 DeepSeek-R1 和 Kimi K2.5 等顶级开源模型确立了万亿参数的工业基准后,真正的极限性能压榨才...
关键字:
AMD
EPS
PSE
GPU
March 18, 2026 ---- 根据TrendForce集邦咨询最新AI Server研究,在大型云端服务供应商(CSP)加大自研芯片力道的情况下,NVIDIA(英伟达)在GTC 2026大会改为着重各领域的AI...
关键字:
ASIC
GPU
CPU
Nscale收购Monarch计算园区——美国首个获州认证的AI微电网,现场供电能力最高可扩展至8吉瓦以上 Nscale与Microsoft签署意向书,提供高达1....
关键字:
NVIDIA
MICROSOFT
GPU
TE
加州圣荷西2026年3月17日 /美通社/ -- 全球高效能、节能服务器解决方案领导厂商,神达控股股份有限公司(股票代号:3706)旗下子公司神雲科技股份有限公司(MiTAC Computing Technology C...
关键字:
NVIDIA
TC
AI
GPU
加利福尼亚州圣何塞 —— GTC —— 太平洋时间 2026 年 3 月 16 日 —— NVIDIA 今日宣布,正与包括 Cadence、达索系统、PTC、西门子和新思科技等在内的全球领先工业软件厂商合作,将 NVID...
关键字:
GPU
AI
数字孪生
上海2026年3月12日 /美通社/ -- 继3月5日在硅谷成功举办全球品牌发布会后,图灵进化携其AI全栈解决方案首次亮相中国家电及消费电子博览会(AWE 2026)。 在展会上,图灵进化展示了覆盖AI算力、存储、...
关键字:
芯片
GPU
PS
全栈
芯原成熟的GPU、显示处理与畸变矫正IP三者协同,支持AR显示处理实现高度集成与低时延
关键字:
AR显示
处理器
GPU
Feb. 25, 2026 ---- 根据TrendForce集邦咨询最新AI server产业研究,为加速AI应用导入与升级,全球云端服务供应商(CSP)持续加强投资AI server及相关基础建设,预计2026年八大...
关键字:
AI
ASIC
GPU
Feb. 13, 2026 ---- 根据TrendForce集邦咨询最新HBM产业研究,随着AI基础建设扩张,对应的GPU需求也不断成长,预期NVIDIA(英伟达) Rubin平台量产后,将带动HBM4需求。目前三大存...
关键字:
HBM4
AI
GPU
Feb. 10, 2026 ---- 根据TrendForce集邦咨询最新高速互连市场研究,为应对AI所需的庞大运算需求,Google(谷歌)新世代Ironwood机柜系统结合3D Torus网络拓扑、Apollo OC...
关键字:
AI
数据中心
GPU
1月27日消息,国产GPU迎来了重磅更新,这家名叫天数智芯的公司发布的四代架构路线图显示,明年超英伟达Rubin架构。
关键字:
GPU
5nm
上海2026年1月22日 /美通社/ -- 以下报道来自海峡导报: 2025年末,随着摩尔线程、沐曦股份在科创板上市后股价表现强劲,及2026年初壁仞科技成功登陆港股,国产高端GPU领军企业集群加速对接资本市场。如今,...
关键字:
GPU
IP
进程
BSP
1月21日消息,被称为国产GPU第一股的摩尔线程今晚发布了2025年报预告,营收14.5亿元到15.2亿元,同比增长230.70%到246.67%,但依然亏损9.5亿元到10.6亿元。
关键字:
GPU
5nm
1月20日消息,最近,基于兆芯开胜KH-40000 32核心处理器打造的高性能服务器产品,成功落地南非塞拉利昂宝石矿区预测系统,为矿产资源勘探提供核心算力支撑。
关键字:
CPU
GPU
上海2026年1月2日 /美通社/ -- 北京时间2026年1月2日,启明创投投资企业、国产GPU领军企业壁仞科技成功登陆港交所,成为2026年港股首家上市企业。壁仞科技(06082.HK)发行价为19.6港元/股,开盘...
关键字:
GPU
AI
芯片
智能计算
1月6日消息,在“全球最快游戏CPU”这个头衔上,现在的AMD不可能让步。
关键字:
CPU
GPU
随着GPU功耗的持续攀升,AI服务器环境中的供电需求不断增长,本文围绕此趋势展开讨论。文中重点阐述了供电架构从48V向800V的转型变化,并探讨了随着数据中心基础设施的演进,ADI在高压热插拔保护领域的持续创新成果。
关键字:
热插拔保护
GPU
AI服务器