[导读]在先前文章《近距离看GPU计算(2)》中,我们谈到现代GPU发展出SIMT(SingleInstructionMultipleThread)的执行结构,硬件线程池的线程们有相对独立的运行上下文,以Warp为单位分发到一组处理单元按SIMD的模式运行。这些Warp内的线程共享同样的...
在先前文章《近距离看GPU计算(2)》中,我们谈到现代GPU发展出SIMT(Single Instruction Multiple Thread)的执行结构,硬件线程池的线程们有相对独立的运行上下文,以Warp为单位分发到一组处理单元按SIMD的模式运行。这些Warp内的线程共享同样的PC,以锁步的方式执行指令,但是每个线程又可以有自己的执行分支。很自然衍生的一个问题就是现代GPU如何有效的处理Branch Divergence(分支分歧)?一方面为适应复杂图形渲染以及通用计算的要求,GPU编程语言像其它高级语言一样需要支持各种各样的流控制(Flow Control)指令,比如if\switch\do\for\while等等,这些指令都会导致分支分歧。另一方面GPU并行计算的特点要求所有处理单元整齐划一地执行相同指令,才能够取得性能最大化。如何较好地解决这两种不同要求导致的冲突,一直是GPU研究中的热点难点问题。在这里笔者没有能力深入探讨,只是浅尝辄止做一般介绍,主要求这个系列内容完整,不足甚至谬误之处,请各位看官不吝指正。一,分支分歧对性能的影响这一节我们首先来讨论下分支分歧对GPU性能的影响。以如下if\else代码为例,我们看下GPU一般是如何来处理分支分歧的?if (cond) {...} else {...}假设一个Warp中有16个线程判断条件为真,另外16个线程条件为假,所以一半线程会执行if中的语句,另一半线程执行else中的语句。这看起来像个悖论,我们知道Warp中的线程同一时刻只能执行相同的指令。实际上遇到分支分歧时GPU会顺序执行每个分支路径,而禁用不在此路径上的线程,直到所有有线程使能的分支路径都走完,线程再重新汇合到同一执行路径。如下图所示,每个分支都有些线程不干活或者干无用功,Warp实际上需要执行的指令数目大增。假设每个分支任务量大致相同,分支分歧造成的性能损失少则原先的一半,最坏的情况如果每个线程执行分支都不一致,性能下降为最高时候的1/32。所以无论在设计算法还是分配处理数据的时候,我们都要小心尽量避免同一个Warp内线程出现分支分歧的状况,在遇到流控制指令的时候,最好能够选择同样的路径。二,如何实现Reconvergence
上一节我们讲了Warp的线程产生了分支分歧之后,为求性能最佳,不可能让它们一直放任自流,最终还是要尽可能在合适时机把它们重新汇合(Reconverge)起来。但这一切是如何实现的呢?按照参考1的说法,“The SM uses a branch synchronization stack to manage independent threads that diverge and converge” 。下面根据可接触到的文献我们看看大概是如何实现的,不一定跟GPU产商的实际做法一致。我们称这个Warp运行时栈为SIMT Stack,每个Warp拥有一个SIMT栈用于处理SIMT执行模式中的分支分歧。首先我们需要先确定分支分歧的最近重汇合点(Reconvergence Point),一般可以选用造成分支分歧节点的直接后序支配节点(Immediate post-dominator,若控制流图的节点n 到终结节点的每一条路径均要经过节点d,则称节点d后序支配节点n,如d与n之间没有任何其他节点后序支配n,则称节点d直接后序支配节点n),这可以通过编译时的控制流分析得到。如下图所示,左边是我们假想的一段GPU伪代码,右边是对应的控制流图,我们假设SIMD通道的数目是4,每个节点边上的掩码数字代表通道上线程在该节点基本块有没有使能。SIMT栈结构每个条目由执行指令PC、分支重汇合PC(RPC)和使能线程掩码三部分组成。下图反映了执行流从节点B分支分歧到节点E重新汇合时SIMT栈的更新过程。执行的时候,遇到流控制指令,我们将各个分支依次入栈,栈顶条目的PC会被送到取指单元开始相应分支路径的处理,只有条目掩码中使能的线程会处于活跃状态,当下一条PC等于栈顶条目RPC的时候,说明该分支已经到了汇合点,栈顶条目会被弹出,开始下一分支的处理以至所有执行线程汇合并共同执行接下来的指令。值得注意的是真实环境下GPU都设计有一些特殊指令来维护SIMT栈。下图表示上面代码在时间轴上的执行过程,实心箭头表示对应线程在该执行节点处于活跃状态,反之空心箭头代表不活跃状态。基于SIMT栈的Reconvergence方案并不完美,其中一个很大的问题是Warp内线程细粒度同步的时候很容易引发死锁。按照Nvidia的说法,"algorithms requiring fine-grained
sharing of data guarded by locks or mutexes can easily lead to deadlock,
depending on which warp the contending threads come from."。以下面代码为例,某幸运线程拿到锁之后,在最近重汇合点C等着与大部队接头,不幸的是它无法执行下面的Exch指令以释放锁,导致其它线程只能在B处空转,形成死锁。从更高的层次上理解,分支分歧导致的顺序执行只发生在Warp内的线程,Warp之间却相互不受干扰,这种不一致的处理方式对算法移植的适应性还是可预测性都会带来影响。Nvidia从Volta GPU开始做出了改进,提出了"Independent Thread Scheduling"的方法,使得所有线程无关所在Warp可以具有同样并发执行能力,为此相比之前的GPU其Warp内所有线程共享PC以及运行栈,Volta GPU的线程都分别有各自的PC和运行栈,如下图所示。如此针对同样的GPU程序以及分支分歧,Volta与之前的GPU相比有截然不同的调度行为。我们注意到在Volta中所有的Warp线程并没有一起强制汇合执行Z基本块,主要考虑到Z可能作为生产者需要提供其它执行分支依赖的的数据。回到我们先前死锁的例子,在Volta中这个死锁便可迎刃而解。如果我们明显了解相关分支不存在同步行为,为优化性能计,CUDA提供了 __syncwarp()
函数以便强制汇合。主要参考资料:NVIDIA Tesla: A Unified Graphics and Computing Architecture
- Dynamic Warp Formation and Scheduling for Efficient GPU Control Flow
- https://developer.nvidia.com/blog/inside-volta/
- General-Purpose Graphics Processor Architectures
~~~~~~~~~~~~~~~~~~~~~~~~~~~~如果觉着内容有帮助,请帮忙关注、点赞、在看并分享给更多的朋友。谢谢!
本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
北京——2024年4月25日 我们的客户选择亚马逊云科技运行他们的关键应用程序和最敏感的数据。每天,世界上发展最快的初创公司、最大的企业和最值得信赖的政府机构都选择亚马逊云科技作为技术基础设施平台。他们之所以选择亚马逊云...
关键字:
GPU
计算
生成式AI
据报道,日本电信巨头软银集团将在未来两年投资1500亿日元(9.6亿美元)升级其计算设施,该计划包括大量采购英伟达GPU。
关键字:
软银
英伟达
GPU
AI
4月24日消息,特斯拉CEO马斯克在最近的财报电话会议上透露,特斯拉的Optimus人形机器人预计将在今年底前具备执行“有用的”工厂任务的能力,并有望在2025年底前推向市场。这一消息引发了业界和公众的广泛关注。
关键字:
马斯克
AI
特斯拉
GPU
近日媒体Business Insider透露称,微软目前正在疯狂囤货GPU,目标在2024年12月前达到180万片。微软本次采购的 GPU 主要来自英伟达公司,不过微软也计划采购 AMD 等其它公司的 GPU 进行扩充。
关键字:
微软
GPU
Apr. 16, 2024 ---- NVIDIA新一代平台Blackwell,包含B系列GPU及整合NVIDIA自家Grace Arm CPU的GB200等。TrendForce集邦咨询指出,GB200的前一代为GH2...
关键字:
CPU
GPU
联发科官方近日宣布,天玑开发者大会(MDDC 2024)将于5月7日在深圳隆重开幕。此次大会以“AI予万物”为核心议题,旨在汇聚全球开发者智慧,共同探讨AI技术在多元领域的应用前景与发展动向。届时,众多行业领袖与资深专家...
关键字:
生成式AI
GPU
天玑
4月9日消息,据媒体报道,马斯克最近表示,首艘无人驾驶的星舰将会在五年内登陆火星,或将在接下来的七年内实现第一批人类登陆火星。
关键字:
马斯克
AI
特斯拉
GPU
3月20日消息,全球最强AI芯片GB200横空出世,使得这届GTC 2024大会热度空前,也让英伟达创始人兼CEO黄仁勋再一次成为全球焦点人物。
关键字:
英伟达
GPU
芯片
The Weather Company 和台湾气象部门成为首批采用全新 Earth-2 云 API 的机构,使用 AI 加速全球气候和天气高分辨率模拟和可视化,突破性地实现 2 公里尺度
关键字:
AI
数字孪生
GPU
3月19日消息,在英伟达年度 GTC 开发者大会上,黄仁勋宣布推出推出了Project GR00T人型机器人项目,其中就包括全球首款人型机器人基础模型。
关键字:
英伟达
GPU
芯片
3月19日消息,在英伟达GTC 2024大会上,英伟达CEO黄仁勋宣布推出新一代GPU Blackwell。
关键字:
英伟达
GPU
芯片
基于先进的 NVIDIA 网络、NVIDIA 全栈 AI 软件和存储技术,可将集群中 Grace Blackwell 超级芯片的数量扩展至数万个,通过 NVIDIA NVLink可将多达 576 块 Blackwell...
关键字:
生成式 AI
超级计算
GPU
NVIDIA cuLitho 可将半导体制造中高度计算密集型的工作负载加快 40-60 倍,并为业界带来全新的生成式 AI 算法
关键字:
生成式 AI
半导体
GPU
全新 NVIDIA NIM 和 GPU 加速的微服务专为生物、化学、影像和医疗数据开发,并在 NVIDIA DGX 云中运行
关键字:
生成式 AI
GPU
数字医疗
Meta日前推出两个功能强大的GPU集群,用于支持下一代生成式AI模型的训练,包括即将推出的Llama 3。
关键字:
Meta
英伟达
H100
GPU
3月14日消息,从年初到现在,英伟达的股价已经飙升了80%,在过去一年内上涨了287%,其股价已经逼近1000美元关口,市值达到了2.2万亿美元逼近苹果公司。
关键字:
英伟达
GPU
芯片
Mar. 13, 2024 ---- 据TrendForce集邦咨询资深研究副总吴雅婷表示,目前2024年HBM(High Bandwidth Memory)市场主流为HBM3,NVIDIA新世代含B100或H200的规...
关键字:
GPU
AI
HBM
在当今科技快速发展的时代,人工智能(Artificial Intelligence,简称AI)已经成为人们热议的话题之一。
关键字:
通用人工智能
DSA
GPU
近日,芯片厂商 Groq 近期指控英伟达存在不正当竞争行为,称其延缓向同时使用其他厂商数据中心AI处理器的客户发货。与此同时,前AMD图形业务部门副总裁 Scott·Herkelman 也称英伟达在多个领域都存在类似行为...
关键字:
AMD
英伟达
GPU