人工智能处理器和加速器到底是什么?
扫描二维码
随时随地手机看文章
AI 加速器是一种专用硬件组件,旨在增强人工智能 (AI)和机器学习 (ML)应用程序的性能。与传统处理器不同,AI 加速器针对 AI 任务(例如深度学习和神经网络处理)的独特计算要求进行了优化。这些加速器对于加速AI 工作负载、提高效率和实现实时数据处理至关重要,因此对于各种行业和应用程序来说都是必不可少的。
AI 加速器有多种形式,包括图形处理单元 (GPU)、张量处理单元 (TPU)、现场可编程门阵列 (FPGA)和专用集成电路 (ASIC)。每种类型的加速器都旨在处理特定类型的 AI 工作负载,提供不同级别的性能、灵活性和能效。最常见的有:
GPU:GPU 最初设计用于图形渲染,擅长同时执行多项任务,也就是所谓的并行处理,使其成为处理 AI 应用程序所需的大规模计算的理想选择。
TPU:TPU 由谷歌开发,专为张量运算而设计,张量运算是一种涉及多维数组的数学运算,是深度学习算法的基础。
FPGA:这些是可配置的硬件组件,可以进行编程来执行特定任务,在性能和灵活性之间实现平衡。
ASIC:专为特定应用而定制,ASIC 为专用 AI 任务提供最高的性能和效率,但缺乏 GPU 和 FPGA 的灵活性。
AI加速器芯片(又称“AI芯片”)是专门的微电子硬件设备,可加速和优化AI/机器学习软件模型的处理。在这里,我们的分析重点是图形处理器之外的架构。AI发展的速度可能取决于新的芯片材料和设计。此外,地缘政治紧张局势也会和芯片制造行业互相影响,美国《芯片与科学法》是恢复美国在半导体领域领导地位的关键努力。在短期内,边缘应用可能会发生重大变革,例如无人机系统上的高保真计算机视觉等。最终,随着芯片变得越来越“类似大脑”,芯片的能力将开始与人类大脑相匹敌,甚至高度复杂的模型如大语言模型,有朝一日也可以在小尺寸、低重量和低功耗的设备上运行。AI芯片有几种类型,通常需要在能效和可运行模型的灵活性之间进行权衡。随着芯片晶体管达到物理尺寸的极限,摩尔定律放缓,其他技术正在经历一场创新的复兴,并有望彻底改变AI行业。
人工智能加速器(AI accelerator),又称神经处理单元(NPU,neural processing unit),是一类专用于人工智能应用的硬件加速单元或计算系统,主要为人工神经网络、计算机视觉、语音识别、机器学习和其他人工智能技术算法提供硬件加速。 NPU按应用分,主要有:目标检测、面部检测识别、手势识别、语音识别、声音和图像识别、噪声消除等;NPU按市场分,主要有智能家居、消费电子、医疗保健、智能相机、物联网、无人机、机器人、AV/VR、汽车、边缘计算等。AI加速器和神经处理单元(NPU)的集成,为微控制器(MCU)和微处理器(MPU)带来了显著的性能提升。一些厂商都在积极发展这一领域,推出了一些创新的产品,以满足市场对于高效能边缘AI处理能力的需求。以下是一些集成了AI加速器或神经处理单元(NPU)的MCU和MPU厂商和产品,及具有NPU的IP公司。
数据中心是互联网的后端。无论是 Netflix 还是 Google,所有大公司都利用数据中心及其托管的计算机系统向最终用户提供数字服务。随着企业的重点转向高级 AI 工作负载,数据中心传统的以 CPU 为中心的服务器正在通过集成新的专用芯片或“协处理器”而得到增强。
从本质上讲,这些协处理器背后的想法是引入某种附加组件来增强服务器的计算能力。这使它们能够处理 AI 训练、推理、数据库加速和网络功能等工作负载的计算需求。在过去几年中,以 Nvidia 为首的 GPU 已成为协处理器的首选,因为它们能够以无与伦比的速度处理大量数据。根据Futurum Group的一项研究,由于需求增加,去年 GPU 占数据中心内支持 AI 用例的协处理器的 74% 。
研究显示,GPU 的主导地位预计只会增长,到 2028 年,该类别的收入将以每年 30% 的速度增长,达到 1020 亿美元。但问题是:虽然 GPU 凭借其并行处理架构成为加速各种大规模 AI 工作负载(如训练和运行大规模、万亿参数语言模型或基因组测序)的强大伙伴,但它们的总体拥有成本可能非常高。例如,Nvidia 的旗舰GB200“超级芯片”结合了 Grace CPU 和两个 B200 GPU,预计成本在 60,000 至 70,000 美元之间。一台装有 36 个这种超级芯片的服务器估计成本约为 200 万美元。
虽然这在某些情况下可能有效,例如大型项目,但并非适用于每家公司。许多企业 IT 经理都希望采用新技术来支持选定的低到中等密集型 AI 工作负载,并特别关注总体拥有成本、可扩展性和集成度。毕竟,大多数 AI 模型(深度学习网络、神经网络、大型语言模型等)都处于成熟阶段,需求正在转向 AI 推理和增强特定工作负载(如图像识别、推荐系统或对象识别)的性能,同时保持高效。
这正是芯片制造商、初创公司和云提供商正在构建的专用 AI 处理器和加速器的新兴领域。
从本质上讲,AI 处理器和加速器是位于服务器 CPU 生态系统中的芯片,专注于特定的 AI 功能。它们通常围绕三种关键架构:专用集成电路 (ASIC)、现场可编程门阵列 (FPGA) 和最新创新的神经处理单元 (NPU)。ASIC 和 FPGA 已经存在了相当长一段时间,可编程性是两者之间的唯一区别。ASIC 是为特定任务(可能与 AI 相关,也可能不相关)从头定制的,而 FPGA 可以在后期重新配置以实现自定义逻辑。NPU 与两者的区别在于,NPU 是一种专用硬件,只能加速 AI/ML 工作负载,如神经网络推理和训练。
Futurum 集团首席执行官 Daniel Newman 告诉 Venturebeat:“加速器往往能够单独执行任何功能,有时采用晶圆级或多芯片 ASIC 设计,它们能够处理一些不同的应用程序。NPU 是专用芯片(通常是系统的一部分)的一个很好的例子,它可以处理许多矩阵数学和神经网络用例以及使用更少功率的各种推理任务。”这些加速器,尤其是为特定应用而构建的 ASIC 和 NPU,在成本和功耗方面比 GPU 更高效。IBM 云和行业平台总经理 Rohit Badlaney 告诉 VentureBeat:“GPU 设计主要以算术逻辑单元 (ALU) 为中心,这样它们就可以同时执行数千次计算,而 AI 加速器设计主要以张量处理器核心 (TPC) 或单元为中心。一般来说,AI 加速器的性能与 GPU 性能的比较取决于该设计的固定功能。”
目前,IBM 采用混合云方法,在整个堆栈中使用多个 GPU 和 AI 加速器,包括来自 Nvidia 和 Intel 的产品,为企业提供选择,以满足其独特工作负载和应用的需求 - 高性能和高效率。“我们的全栈解决方案旨在帮助改变企业、开发人员和开源社区构建和利用生成式人工智能的方式。人工智能加速器是我们认为对希望部署生成式人工智能的客户非常有益的产品之一,"Badlaney 说。他补充说,虽然 GPU 系统最适合大型模型训练和微调,但加速器同样可以处理许多人工智能任务,而且成本更低。
例如,IBM 云虚拟服务器使用了英特尔的Gaudi 3加速器,并配备了专为推理和大内存需求设计的定制软件栈。该公司还计划通过由多个系统组成的小型集群,将加速器用于微调和小型训练工作负载。“人工智能加速器和 GPU 可以有效地用于一些类似的工作负载,例如从 LLM 和扩散模型(像稳定扩散这样的图像生成)到标准物体识别、分类和语音配音。不过,人工智能加速器和 GPU 之间的优势和差异完全取决于硬件提供商的设计。Badlaney 解释说:"例如,Gaudi 3 AI 加速器的设计旨在显著提升计算能力、内存带宽和基于架构的能效。