边缘计算与存内计算一体：后摩尔时代数字集成电路的新架构介绍

时间：2026-04-07 14:03:34

关键字：边缘计算存内计算

手机看文章

扫描二维码
随时随地手机看文章

[导读]摩尔定律的放缓正在迫使芯片设计行业寻找全新的计算范式。传统冯·诺依曼架构中，处理器与存储器分离，数据在两者之间反复搬运，这一“存储墙”瓶颈在数据密集型应用中愈发突出。以边缘计算场景为例，图像识别、语音处理、传感器融合等任务中，数据搬运所消耗的能量可达实际计算能量的数十倍甚至上百倍。存内计算技术的核心理念正是打破这一壁垒——让存储器本身具备计算能力，在数据存储的位置直接完成运算。当存内计算与边缘计算需求相遇，一种全新的数字集成电路架构应运而生。

摩尔定律的放缓正在迫使芯片设计行业寻找全新的计算范式。传统冯·诺依曼架构中，处理器与存储器分离，数据在两者之间反复搬运，这一“存储墙”瓶颈在数据密集型应用中愈发突出。以边缘计算场景为例，图像识别、语音处理、传感器融合等任务中，数据搬运所消耗的能量可达实际计算能量的数十倍甚至上百倍。存内计算技术的核心理念正是打破这一壁垒——让存储器本身具备计算能力，在数据存储的位置直接完成运算。当存内计算与边缘计算需求相遇，一种全新的数字集成电路架构应运而生。

存内计算的数学本质是将计算操作映射到存储阵列的模拟域操作中。以最常见的向量矩阵乘法为例，这是神经网络推理中最核心的计算原语。在传统架构中，权重矩阵存储在SRAM或闪存中，输入向量从处理器寄存器加载，乘法累加操作由ALU顺序执行。而在存内计算架构中，权重被编程到存储单元的导通特性中，输入向量以电压形式施加到位线，输出电流在位线末端自然累加，直接得到向量矩阵乘法的结果。

这一过程的物理实现基于欧姆定律和基尔霍夫电流定律。每个存储单元等效为一个可变电导G，当施加电压V时，产生电流I等于V乘以G。将同一列上所有单元的电流相加，即得到输入向量与权重列向量的点积。整个计算过程在内存阵列内部完成，无需将任何权重数据搬移到处理器。对于一次8乘8的向量矩阵乘法，传统架构需要从内存读取64个权重值、执行64次乘法与56次加法，而存内计算架构只需8次电压施加和一次电流读出操作。数据搬运量减少至原来的八分之一，能耗降低一到两个数量级。

数字存内计算与模拟存内计算存在本质区别。模拟方案直接在位线上进行电荷共享或电流求和，速度快但易受工艺、电压、温度波动影响。数字方案则在存储阵列外围集成加法树和累加器，存储单元只输出数字值0或1，通过数字逻辑完成累加。数字方案牺牲了一定的面积效率，但换来了更好的噪声容限和量产一致性。当前产业界的主流选择是混合方案：存储阵列采用模拟电流求和，但在读出后立即进行模数转换，后续累加在数字域完成。

边缘计算场景对存内计算架构提出了特殊要求。云端AI芯片可以承受数十瓦乃至数百瓦功耗，但边缘设备往往被限制在百毫瓦级别。同时，边缘设备需要处理的任务类型更加多样化，从关键词唤醒到异常检测，从图像分类到振动分析，单一的矩阵乘法加速无法满足需求。

某款面向智能传感节点的存内计算芯片采用了异构存内计算单元的设计。芯片内部集成了三种不同类型的存内计算宏：基于SRAM的高速宏用于缓存和计算激活值，访问延迟仅为2纳秒;基于阻变存储器的非易失宏用于存储权重，断电后数据不丢失;基于闪存的超大容量宏用于存储离线训练的基准模型。三种宏的存储密度分别为10、50和1000千比特每平方毫米，形成从高速缓存到大容量存储的完整层次。

在实际的人体活动识别任务中，该芯片展示了存内计算架构的能效优势。使用公开数据集进行三轴加速度传感器数据分类，模型为一个三层全连接网络，共计12万个权重参数。传统ARM Cortex-M4方案完成一次推理耗时4.2毫秒，消耗能量342微焦。存内计算芯片完成同样推理仅耗时0.31毫秒，消耗能量18.7微焦。能效提升达18倍，延迟降低13倍。更重要的是，存内计算方案的能耗与模型参数量呈亚线性关系，而传统方案呈线性关系。这意味着随着模型规模增大，存内计算的相对优势进一步扩大。

存内计算并非孤立的技术，它与边缘计算系统的其他组件需要深度协同。一个完整的存算融合边缘芯片通常包含以下层次：最底层是存内计算阵列，执行核心的矩阵运算;之上是轻量级RISC-V控制核心，负责任务调度和数据流管理;再之上是片上网络，连接多个存内计算宏和专用加速器;最顶层是运行时固件，支持动态工作负载划分。

某工业缺陷检测系统的部署案例展示了这一架构的实际效果。该系统在一条电子元器件生产线上检测电容表面缺陷，需要实时处理200万像素图像。传统方案采用Jetson Nano模块，功耗约10瓦，需配合主动散热风扇，在粉尘环境下风扇易堵塞导致过热降频。基于存内计算芯片的边缘节点将功耗降至1.2瓦，实现无风扇全被动散热，体积缩小至原来的四分之一。更重要的是，存内计算芯片的确定性延迟特性使系统能够实现微秒级响应，而GPU方案因内核调度和内存搬运存在数十微秒的不可预测抖动。

数据隐私是边缘计算的另一核心诉求。存内计算架构天然适合隐私保护场景，因为所有计算都在存储器内部完成，原始数据无需暴露给外部处理器。某医疗可穿戴设备厂商利用这一特性，在心电图异常检测任务中实现了本地化推理。用户的原始心电数据始终存储并计算在芯片内部，只有最终的分类结果通过蓝牙传输到手机。第三方安全审计报告确认，该方案消除了云端推理中存在的中间数据泄露风险。

存内计算芯片的量产面临独特的工艺挑战。模拟存内计算对存储单元的导通一致性要求极高，单个单元10%的误差会导致计算精度显著下降。目前的主流解决方案是采用单次可编程修调技术，在晶圆测试阶段测量每个单元的实际导通值，并写入补偿系数。这一步骤增加了测试成本，但对于保证量产良率必不可少。

产业进展方面，台积电在2025年发布了面向存内计算优化的22纳米超低漏电工艺，专门优化了存储单元的读写噪声特性。三星则将存内计算宏作为其SAFE生态系统的标准IP核，可供客户直接集成。中国厂商方面，知存科技、闪忆半导体等创业公司已推出商用存内计算芯片，主要面向智能语音和可穿戴设备市场。据市场研究机构预测，存内计算芯片的市场规模将从2024年的约3亿美元增长至2028年的25亿美元，年复合增长率超过70%。

需要指出的是，存内计算并非解决所有问题的万能方案。对于控制流密集而非数据流密集的任务，存内计算的收益有限。产业界在实践中发展出了近存计算的折中方案：将计算逻辑放置于存储阵列的紧邻位置，但不完全融入存储单元。近存计算保留了存内计算的低数据搬运优势，同时避免了模拟计算的精度损失。主流趋势是采用混合架构，将存内计算用于神经网络推理等数据密集型任务，将传统逻辑用于控制和通用计算。

边缘计算与存内计算的融合正在重新定义数字集成电路的能力边界。它不是对冯·诺依曼架构的局部改良，而是从计算模型出发的重新思考。当数据在产生的位置被就地处理，当存储单元同时扮演计算单元的角色，功耗与性能之间的传统权衡曲线被彻底改写。从智能传感器到可穿戴设备，从工业检测到医疗监测，这一新架构正在将边缘设备的智能边界推向更低功耗、更小体积、更强隐私的维度。后摩尔时代的计算图景中，存算一体不再是实验室中的前沿探索，而是走向规模商用的关键技术路径。