RISC-V在AI上的天然优势,以及能走多远的关键所在
扫描二维码
随时随地手机看文章
受生成式 AI 驱动, RISC-V 芯片市场快速发展。预计到2030年,RISC-V SoC出货量将达到1618.1亿颗,营收将达到927亿美元。其中,用于AI加速器的RISC-V SoC出货量将达到41亿颗,营收将达到422亿美元。
百模大战催生了更多的算力需求,为了追求更高校低成本的token产出,业界纷纷采用异构计算来实现工作负载的优化,而异构计算范式与RISC-V技术优势天然高度契合。巨头公司和初创公司纷纷入局,例如OpenAI早早就启动了RISC-V AI造芯计划,Altman向一家芯片初创公司Rain AI进行了投资,而其第一批基于RISC-V开源架构的AI芯片也即将流片。
在AI巨头的计算布局中,RISC-V已成重要一环:谷歌在其人工智能芯片中使用SiFive的X280 作为协处理器,并计划在下一代人工智能系统中继续采用SiFive设计。Meta首发的AI MTIA芯片中使用两颗AX25V100核心处理器,其RISC-V IP内核已获认可,且第二代MTIA芯片将继续采用并增加核心数量。特斯拉的Project Dojo芯片核心包含一个整数单元,采用了部分RISC-V架构指令。
反观高性能芯片方面,RISC-V AI芯片公司如雨后春笋般萌发:Tenstorrent将基于RISC-V架构技术和 SF4X工艺开发下一代AI芯片。Untether.Al推出的Boqueria Al速器 拥有1458个RISC-V核心,可在由低 至高功耗设备间灵活适配。Rivos推出的AI芯片则结合高性能RISC-V CPU和针对LLM及数据分析优化的GPGPU。
英伟达的推理霸主地位,正在被这些RISC-V”后生“们设计的AISC所挑战。Etched AI推出的全球首款Transformer专用ASIC芯片(名为“Sohu”),采用了台积电4nm工艺,配有144GB HBM3E高带宽内存,在能效上显著优于传统GPU,在推理性能比英伟达H100快20倍。这种优势的建立在其对于Transformer架构的芯片底层硬化优化,因此并不支持CNN、RNN 或 LSTM等大多数AI架构。
而AI芯片创业公司Tenstorrent设计的高性能RISC-V CPU,已经比肩全球最高性能X86架构CPU。其基于自有Ascalon处理器内核的RISC-V CPU,在衡量整数性能的SPEC CPU 2017 INT Rate基准测试中,领先于英特尔的Sapphire Rapids (7.45分) 、Nvidia的Grace (7.44分) 和AMD的Zen 4 (6.80分) ;仅次于AMD的Zen 5 (Zen 5预计将达到8.84分,成为2024-2025年的绝对整数性能冠军)。
灵活性无可比拟,突破传统架构瓶颈
AI计算对算力、存储、内存带宽、容量以及芯片互联带宽的需求极高,远超其他一般应用。为了应对这些挑战,业界进行了广泛探索,包括数据流架构、存内计算、创新封装技术和芯粒(Chiplet)设计等。RISC-V的开放特性为这些架构创新提供了理想的载体,开发者可以基于其免费、开放的指令集架构自由探索和实现创新设计。这种灵活性是Arm和x86等封闭指令集架构无法比拟的独特优势。
针对AI和并行计算而进行了架构优化的ASIC,如Tenstorrent在基于RISC-V的数据流计算架构方面进行的创新设计,旨在解决传统架构(尤其是冯·诺依曼架构)在 AI 和并行计算负载上面临的内存墙、能效比和灵活性瓶颈。
Tenstorrent没有采用GPU,而是用了很多小的RISC-V CPU Core来实现对于Transformer的加速计算。根据Wei-Han Lien的解释,“Baby RISC-V”指的是Tenstorrent在AI加速器设计中使用的一种小型、精简的RISC-V核心,这些核心被用来管理AI计算中的控制和数据流动任务。这种Big+Baby RISC-V设计,其具备几大特点:一是小而精,设计上非常简单,专注于特定的管理任务。这些任务包括指令调度、数据移动(如从一个存储位置到另一个位置)等,而不是执行复杂的计算。由于其简单性,这些核心可以高度优化,适合特定场景的AI计算需求。二是多核架构,Tenstorrent的加速器使用大量这种小型RISC-V核心,通过并行工作来管理AI计算中的复杂流程。这些核心不像传统GPU或GPGPU那样依赖大型、通用计算单元,而是通过分布式的小型核心实现高效的计算控制。三是优化的计算路径,通过简化CPU的控制通路,“Baby RISC-V”的设计能够将芯片的硅面积更多分配给计算单元,而不是控制逻辑。这种设计能大幅提高计算效率,尤其适合AI任务中计算密集型的工作负载。四是灵活性和场景适应性,这些小型核心因其简单性,可以灵活适应不同场景(如云端、边缘设备)。通过RISC-V的统一接口,开发者可以更容易地针对不同硬件进行编程,增强了生态系统的兼容性和扩展性。
软件生态,才是RISC-V x AI的发展命门
虽然采用ASIC的方式,硬件上的设计能够更灵活、在推理侧会更高效。但RISC-V的AI之路能走多远,机会多大,关键是软件生态。
“今天GPU真正的优势在哪里?其实未必是在于单位GPU的算力,它更强的是在于在CUDA上面有一个非常强的生态。”杨静在第五届RISC-V峰会上坦言到。
CUDA的强大在于其完善的软件生态,当前算法迭代很快,而硬件开发周期较长(2-3年)。CUDA的通用性和灵活性让GPU能够快速适配新的算法和模型,无需频繁更换硬件。例如,深度学习模型从CNN到Transformer的演变,CUDA都能通过软件更新支持。
此外,CUDA的统一编程接口屏蔽了底层硬件的差异(不同型号的GPU如Volta、Ampere、Hopper),开发者只需编写一次代码,就能跨硬件运行,极大地降低了开发成本。CUDA还集成了大量优化库(如cuDNN用于深度学习,cuSPARSE用于稀疏矩阵运算),开发者可以直接调用这些库,减少开发时间。例如,PyTorch中的CUDA支持让开发者只需一行代码(.to('cuda'))就能将模型和数据迁移到GPU运行。
CUDA其丰富的库和统一接口确保高性能和灵活性,让GPU内数千个CUDA核心高效处理并行任务,广泛应用于AI、科学计算等领域。
RISC-V若想在AI领域占据一席之地,必须打造类似CUDA的软件生态,开发统一的编程接口和优化库,以支持多样化硬件(如“Baby RISC-V”或玄铁的设计)。同时,RISC-V需兼容CUDA代码的移植,方便开发者迁移现有应用,并构建原生软件栈,充分发挥其开放、可定制架构的优势,推动创新。
总而言之,当前RISC-V在硬件上的创新成绩令人兴奋(如“Baby RISC-V”或玄铁的独立寄存器方案等等),但最终是软件决定了硬件如何被充分利用,RISC-V要学习CUDA的软件生态建设。
AI拓展指令标准化,融合进CPU指令集,软件生态走向统一
80年代,浮点运算需求大,Intel先用8087协处理器跑x87指令,后来把浮点单元直接塞进80486 CPU,x87指令成了x86标配,科学计算效率大涨。90年代,多媒体火了,Intel推出MMX加速视频、图像处理,再到SSE用独立寄存器支持更复杂的并行计算,AVX-512更是直接助力AI。这些指令都从“外挂”变成CPU核心功能,靠编译器和标准普及开。RISC-V现在就像当年的x86,可以加AI专用的指令,比如矩阵运算,早期可能用加速器,未来直接融入CPU。
当下,“可扩展性和模块化”是RISC-V的一个天然优势,开发者可以基于RISC-V指令集,针对特定应用(如AI)构建新的扩展指令集。在硬件选择上,只需实现支持特定模块的RISC-V指令,而非全部指令集,从而优化芯片设计成本。而在未来,当AI应用开始走向确定和收敛,AI拓展指令融合到CPU指令集中,也将会是一种趋势。
当前国内AI芯片也有很多家,每家都有一套自己的软件栈,基本都是“垂直烟囱式”的在发展。包云岗在第五届RISC-V中国峰会上展望,当AI指令集层面上统一后,在这个标准上就可以建设软件栈的统一、编译器的统一。“通过在AI指令集层面上统一以后把上层的软件栈在全世界层面上大家共同共建,这就是才有希望跟CUDA生态竞争、相当于是未来有这个机会。”