AI 效率热潮:更小的模型与加速的计算正驱动 AI 无处不在
扫描二维码
随时随地手机看文章
引言
边缘 AI 的加速
人工智能 (AI) 正在经历一场根本性的变革。早期 AI 模型规模庞大、计算密集,并且依赖云端处理;而如今,一股以提升效率为导向的创新浪潮正将 AI 推理 —— 即模型结果的生成过程 ——向边缘端迁移。更小的模型、更优的内存和计算性能,以及对隐私、低延迟和高能效的需求,正共同推动 AI 在移动设备、可穿戴设备、机器人和汽车等应用中的广泛应用。
然而,这一转变并不意味着对 AI 计算的需求会减少。经济学原理中的“杰文斯悖论 ”(Jevon’s Paradox) 告诉我们,当技术进步提高了效率时,总体消耗并不会下降,反而会增加。对于 AI 也是如此:随着模型变得更加高效,AI 的应用将在各行各业成为常态,全球数十亿台设备和系统中将嵌入更多智能,以捕获和分析数据。
这份高管洞察报告探讨了由模型蒸馏、硬件加速和新兴架构驱动的 AI 效率提升,如何推动 AI 的快速扩展。我们还分析了诸如 DeepSeek 超高效 AI 模型等最新突破的影响,并讨论了 CPU 和加速器计算子系统在边缘扩展 AI 推理中的关键作用。
AI 的演变:从云端到代理智能和物理智能
仅仅在短短 5 年时间里,AI 在能力以及部署的场景和方式上都发生了快速演变。如今,我们已经进入了代理式 AI 阶段,AI 不再只是对输入作出响应,而是能够主动执行任务、做出决策,并实时适应环境。想象一下,个人助理能够总结会议内容、编写代码、调节家居设置,或在无需人工提示的情况下自动化客户服务流程。
与此同时,物理 AI —— 即嵌入在设备中、能够在物理世界中感知、理解并采取行动的智能 —— 正在成为下一个前沿领域。
代理式 AI 和物理 AI 共同标志着一个转折点:AI 不再局限于数字交互,它正成为一种无处不在、深度嵌入的力量,渗透至每一个环境、行业和设备形态之中。
为什么 AI 推理正在向边缘侧迁移?
边缘 AI 普及的关键驱动因素
AI 推理从集中的云端环境向边缘设备的转移,是对技术和市场需求的战略性回应。消费者越来越期望获得更快速、更私密和响应更及时的体验,而设备制造商则面临着在设备端提供高效智能的压力。事实上,根据全球管理咨询公司贝恩 (Bain & Company) 的说法,生成式 AI 推理正是边缘计算的主要催化剂,因为企业将低延迟、增强的安全性以及实时处理专有数据的成本效益放在首位。作为进一步的证据,咨询公司麦肯锡预测,到 2030 年,超过 70% 的 AI 推理将发生在边缘端。接下来,让我们深入探讨其中的一些驱动因素。
更小的 AI 模型:模型蒸馏技术能够将大型复杂的模型压缩成高效紧凑的版本,使其能够在边缘设备上以极低的内存和计算需求运行。这意味着,那些曾经需要依赖云端连接和数 GB 内存才能完成的推理任务,如今在仅配备几 MB 内存的设备中也能高效运行。
更强的计算能力:神经处理单元 (NPU) 和其他专用加速器的兴起,通过增加专门针对人工智能工作负载优化的硬件,增强了传统CPU的性能,从而有效提升了整体 AI 性能。
隐私与安全性:在设备端进行 AI 推理可以减少数据在云端存储和传输过程中可能面临的安全风险。通过在边缘端执行 AI 推理,敏感数据能够安全地留存在设备上,而无需通过网络传输。
更低的延迟:边缘 AI 消除了与云端处理相关的延迟,确保了对关键任务应用的实时响应。这在诸如自动驾驶汽车需要识别行人、手术机器人必须应对意外的组织移动,或增强现实系统需要叠加实时信息等场景中至关重要。
能效:云数据中心消耗大量的电力 —— 据估计,其电力消耗占全球能源使用的 1%-2% —— 且其冷却需求进一步增加了碳足迹。基于边缘的推理大幅降低了与云计算相关的能耗,支持 AI 的可持续应用。
经济性:计算发生的位置决定了计算的成本负担。在云端,企业需要承担基础设施成本,并且通常会补贴使用费用,以此来吸引客户并从数据中获利。而在边缘端,消费者通常会支付费用——无论是通过设备成本间接支付,还是通过应用购买直接支付——这使得效率对于边缘 AI 的普及至关重要。这些片上系统 (SoC) 高度集成,将几乎所有电子组件都封装在一块芯片上,包括 CPU、GPU、调制解调器、图像信号处理器、内存、I/O 接口,甚至是像 NPU 这样的 AI 加速器。这使当今智能手机和其他移动设备能够支持各种各样的应用和服务。
快速采用边缘 AI 的行业
向边缘 AI 转变并非仅停留在理论层面,事实上,随着企业认识到在设备端直接部署 AI 能力带来的竞争优势,这一变革正深刻重塑多个行业。这场变革正在以下领域全面展开:
移动设备,包括现代智能手机,如今能够在没有网络连接的情况下执行实时语言翻译等复杂任务,使旅行者即便没有蜂窝网络服务,也能在国外无障碍交流。生成式 AI 功能使设备能够本地创建图像、文本和音乐,让用户将创作工具装进口袋,同时无需担心隐私问题。我们还看到了 AI PC 的兴起 —— 这类下一代笔记本和台式机配备了专用 NPU,以加速本地推理,并提供更强的生产力、创造力和安全功能。
物联网 (IoT) 和智能家居生态系统是边缘 AI 应用的肥沃土壤。智能音箱、摄像头和传感器如今能够在本地处理指令并检测异常情况,从而减少响应时间并降低对云端的依赖。AI 驱动的自动化系统能够学习家庭使用模式,优化能源使用、安全性和舒适度,而无需将敏感数据传输到远程服务器。预测分析能力使智能家居系统能够根据历史模式预判需求 —— 比如在住户回家之前调节温度,或在家电故障发生前发现潜在问题。
汽车领域的边缘 AI 实现了自适应巡航控制、个性化信息娱乐以及驾驶员和乘客监控等功能 —— 这些都依赖于在车辆上直接运行的特定应用模型。先进驾驶辅助系统 (ADAS) 利用车载神经网络即时识别道路危险、行人和交通标志,能够进行瞬间干预,从而帮助挽救生命。通过将 AI 推理转移到边缘,汽车制造商能够满足消费者对响应速度、安全性和个性化日益增长的期待,同时减少在此类功能上对云端的依赖。
可穿戴设备和医疗器械从边缘 AI 能力中受益巨大。智能手表和健身追踪器如今可以进行复杂的健康监测,检测心律不齐、睡眠呼吸暂停,甚至是糖尿病或房颤等疾病的早期迹象 —— 同时将敏感的健康数据保存在设备上。配备边缘 AI 的医疗设备能够在没有可靠互联网连接的偏远地区提供 AI 辅助诊断,让更多人能够公平地获得医疗专业知识。
前面我们提到了物理 AI。在工业和机器人领域,工厂车间如今采用了视觉检测系统,能够在毫秒级时间内以超越人类的准确度识别缺陷,从而提高产品质量并减少浪费。预测性维护算法在本地分析设备的振动、声音和温度模式,以便在故障发生之前进行预判,大幅降低了停机时间。自主机器人和协作机器人 (cobot) 利用车载 AI 在动态环境中自主导航,并能在无需持续网络连接的情况下安全地与人类协作。
DeepSeek 与超高效 AI 模型的崛起
DeepSeek 在 2025 年 1 月宣布出的显著效率提升,最初可能会让人觉得未来 AI 对计算硬件的需求会减少。事实上,这一消息曾在短期内引发了对数据中心投资前景的质疑。然而,杰文斯悖论揭示了另一番景象。该理论以威廉·斯坦利·杰文斯(William Stanley Jevons)命名。杰文斯在 19 世纪首次观察到,技术进步提高了资源使用效率后,资源的总体消耗量不仅没有减少,反而增加了。他发现,随着燃煤工厂、机器和船舶变得更高效,煤炭的成本下降,这促使人们发明出更多利用煤炭的方法,进而推动了煤炭的总体消耗量上升。对于计算资源来说,情况也是如此。
尽管 DeepSeek 证明了模型在单 token 计算成本降低 94% 的情况下仍可媲美昂贵的竞品方案,但对 AI 芯片的需求却出现了悖论式激增。事实上,OpenAI 联合创始人 Sam Altman 表示,GPT-4.5 的使用量受到限制,并非因为需求不足,而是由于用户量增长迅猛导致可用 GPU 容量短缺。为了应对日益严峻的基础设施限制和竞争压力,微软、Google、Meta 和亚马逊云科技 (AWS) 等主要云服务提供商已宣布计划在 2025 年投资数千亿美元用于 AI 芯片和数据中心 —— 这一数额比他们 2024 年创纪录的支出高出近 50%。
这种模式与我们在计算历史中反复看到的情况如出一辙。摩尔定律在 70 年间推动了计算效率的10 亿倍提升,但我们并没有用一枚硬币大小的处理器来满足全球的全部计算需求。相反,计算能力已经遍布整个经济体系,催生了对芯片前所未有的需求。AI 正在沿着同样的轨迹演进,但速度更为惊人 —— 其效率提升速度达每年 13.8 倍,而摩尔定律是每两年才实现两倍增长。
我们交付 AI 能力的效率越高,我们发现的应用场景就越多,最终为了满足人类对 AI 的渴望,我们所需的计算资源也就越多。换句话说,你是希望指尖只有一个爱因斯坦,还是无数个爱因斯坦随时为你所用?
边缘 AI 硬件的未来:CPU 与加速器
正如杰文斯悖论指出的那样,AI 效率的提升推动了AI 需求的持续增长,问题不再仅仅是需要多少计算能力,而是需要什么样的计算能力。这一不断扩展的 AI 应用范围需要专门针对机器学习独特计算模式优化的硬件架构。尽管行业在算法效率方面取得了显著进步,但支撑这些算法运行的物理基础仍然至关重要。
寻找最佳平衡:边缘端的 CPU 与加速器
当今的 AI 革新需要合适的计算基础。虽然 CPU曾能胜任基础的 AI 任务,但现代 AI对算力的需求已不止于此。解决方案并非在 CPU 与专用 AI 加速器之间二选一,而是战略性地将它们协同整合起来。
这种平衡的方法打造了一个最优的系统:CPU 负责筹通用计算任务,而专用加速器则专注处理密集的 AI 工作负载。这意味着设备能够同时提供高性能和高效率——这对于需要保护数据隐私、降低延迟并最小化功耗的边缘 AI 部署至关重要。
高性能矩阵运算构成了神经网络的数学基础。这些运算涉及同时对大量数字数组进行乘法和变换——这项任务非常适合 GPU 和 NPU,它们凭借并行处理架构在这方面表现出色。例如,现代智能手机中的 NPU 可以同时处理数千次矩阵计算,通过运行复杂的分割模型,将拍摄对象与背景分离,实现实时的人像模式拍摄。
低延迟的实时处理对于那些“延迟即失败”的应用来说至关重要。以自动驾驶汽车为例,毫秒级的差异可能就是碰撞与避免碰撞的差别。针对边缘计算优化的 AI 芯片能够以亚毫秒的响应时间处理来自多路摄像头和传感器的数据,在本地执行目标检测和轨迹计算,规避云端方案所带来的延迟。高度优化的异构计算平台能够最小化实时处理延迟 —— 这在工业自动化等用例中是必不可少的要求。
高能效的 AI 执行需要在性能和能耗之间实现精准平衡。这对于依赖电池供电的设备来说尤为必要,因为在这些设备中,每一毫瓦都至关重要。与通用处理器相比,AI 加速器通常能实现每瓦性能比的显著提升。一块配备专用 NPU 的智能手表可以在仅消耗几毫瓦的情况下持续监测心律异常,从而使设备能够维持数天的电池续航时间。
将这些加速器能力与传统 CPU 的优势相结合,创造了一种“1+1>2”的整体协同效应:CPU 擅长顺序处理、决策逻辑和处理多样化工作负载,而 AI 加速器则为神经网络计算提供强大的计算能力。
让我们看看这种平衡方法如何转化为可衡量的业务成果。最新的基准测试表明,Arm 技术正在为实现有意义的 AI 部署提供所需的性能、效率和可扩展性 —— 从智能手机到工业设备。这些指标展示了当企业采用恰当的 CPU 处理与专用加速结合时,可以实现的潜力。
大语言模型 (LLM) 推理的关键性能基准
要实现无缝的设备端 AI 体验,需要将多种计算技术合理组合,并针对不同类型的工作负载进行优化。以下介绍了 Arm CPU、NPU 以及 KleidiAI 如何在 LLM、生成式 AI、语音和视觉等多种 AI 任务和工作负载中,提供多样化的性能和能效提升。
CPU:高效的设备端 LLM
Arm CPU 现在正在为移动设备上的实时 AI 体验提供动力,包括高效运行像 Llama 3.2(10 亿个 token)这样的超大语言模型:
· 与以往方法相比,关键语言任务的性能提升了 5 倍
· 多消息摘要响应时间仅需 2 秒
· 内存使用量降低了40% 以上,使得在小型设备上也能实现更流畅的性能
· 模型体积缩小了50% 以上,加快了下载和安装速度
这些改进使得在手机和 PC 上运行强大的 AI 应用成为可能 —— 无需依赖 GPU 或云端连接。
NPU:边缘端的极致性能
当需要更高要求的 AI 工作负载时 —— 比如高级助手、图像识别或设备端翻译 —— Arm NPU能够提供所需的加速支持:
· 能够完全在设备端运行复杂的 Transformer 模型(如 BERT)
· 以实时性能支持像 Llama2-tiny 这样的小型 LLM
· 能效比上一代 AI 硬件提升高达 78%
· 在轻量级模型上每秒可处理超过 4,000 次推理
· 支持高性能应用场景,如可穿戴设备、车辆和智能摄像头中的实时视频处理 —— 且具备低功耗特性。
KleidiAI:全栈加速规模与速度
KleidiAI 是 Arm 推出的 AI 软件库,可在基于 Arm 架构的云基础设施和边缘设备上提升各种 AI 工作负载的性能 —— 从语言模型到语音识别,再到计算机视觉:
· 加速提示响应和 token 生成等关键语言任务
· 为 Llama 和 Gemma 等模型提供高达 18 倍的推理速度提升
· 相较于同类 x86 和 GPU 配置,成本效率提升可高达 3.5 倍
· 在语音识别和图像处理方面实现多倍性能提升
· 与 PyTorch、TensorFlow 等业界标准工具深度集成,使开发者能够轻松利用这些速度优势。
这些性能指标直接转化为竞争优势 —— 无论你是推出 AI 驱动的消费产品,还是扩展企业级解决方案。通过采用 CPU 和加速器技术的最佳组合,企业能够在控制成本、能耗和部署复杂度的同时,提供更强大的 AI 体验。
借助 Arm 开发者中心加速开发
为了助力开发者与企业在边缘侧构建创新应用,Arm 推出了Arm开发者中心——这是一个经过优化的开源和专有模型集合,专为基于 Arm 的 CPU、GPU 和 NPU 设计,助力其高效运行。通过为边缘性能预先调优的模型,开发者能够快速评估和部署解决方案,覆盖从可穿戴设备到 AI PC 再到汽车平台的各种设备。Arm 开发者中心通过支持即插即用的顶级 AI 模型实验,消除技术试错成本,开箱即用,加速了价值实现周期。
赋能开发者打造新一代边缘 AI
开发者是边缘 AI 成功的核心,Arm 致力于让开发者能够轻松地在其生态系统中构建、优化和部署模型。Arm 开发者中心提供预优化模型,用于加速原型设计,而 KleidiAI 则确保了基于 Arm 的硬件的无缝性能调优。Arm 还提供与 PyTorch、TensorFlow 和 ONNX Runtime 等流行的机器学习框架集成的AI 性能库、编译器和工具链。无论是在云端还是在边缘进行开发,开发者都可以依靠广泛的支持、业界领先的文档以及无可比拟的灵活性来构建可扩展的 AI 应用。
总结:AI 扩张的时代
AI 推理的发展方向
在接下来的十年中,我们将见证 AI 从以云端为中心向复杂的混合架构的根本性转变,这种架构平衡了集中式和分布式智能。
模型将继续朝着更小、更快、更高效的方向快速发展。然而,与直觉相反的是,这些效率的提升并不会减少 AI 的部署,反而会极大地加速这一进程。随着部署门槛的降低,以前不切实际的 AI 应用变得可行,从而形成创新与应用的良性循环。
AI 硬件的重要性
尽管在算法效率方面取得了令人瞩目的进步,但支撑 AI 运行的物理基础依然至关重要。未来属于那些能够无缝集成 CPU 与 NPU、GPU 等专用加速器的计算子系统,每种处理器都负责最适合其优化方向的工作负载。CPU 将管理控制流、系统操作和顺序任务,而加速器则处理那些构成机器学习基础的高强度矩阵计算和模式识别。这种异构计算环境将成为整个计算领域的常态,从大型数据中心到微型嵌入式设备都会普及。
加速 AI 革命
我们正处于各行各业热情拥抱 AI 的初期阶段。智能正被嵌入到过去不具备智能的流程、产品和服务中 —— 从农业到制造业,从医疗到交通运输,从教育到娱乐。这场变革的广度与深度,远非言语所能尽述。
那些昨天还无法证明实施 AI 成本合理性的公司,明天将认为它是不可或缺的;而那些已经在使用 AI 的公司则将大幅扩展其部署规模。
这一趋势最深远的意义在于,我们并没有接近 AI 的终点,而是正站在一个充满无限可能的新技术前沿的起点。在AI 生态系统中,公司所展示的效率突破并不是技术走向成熟和稳定的信号,而是预示着一场智能革命的初步迹象,这场革命将重塑我们的世界。
Arm 为边缘 AI 时代而生
数十年来,Arm 一直走在边缘计算的前沿 —— 为全球超过 99% 的智能手机和数十亿台物联网设备提供动力。凭借在移动生态系统中的无可比拟的覆盖范围、高能效计算的技术积淀以及与生态伙伴的深厚合作关系,Arm 在引领边缘 AI 转型方面具备独特的优势。我们的架构已深度融入AI 效率革命的关键应用设备中 —— 包括手机、可穿戴设备、汽车、智能摄像头和工厂设备。这一规模为边缘 AI 的普及提供了巨大的发展空间。