当前位置:首页 > 嵌入式 > 《嵌入式技术与智能系统》
[导读]随着人工智能技术与嵌入式硬件的快速发展,嵌入式人工智能系统(如移动机器人、自动驾驶汽车和星载无人机)在工业自动化、交通运输和航空航天等关键领域变得越来越重要。作为集成CPU、GPU、NPU等多种异构处理器单元的智能实时系统,其核心任务是通过计算密集型的深度神经网络(DNN)实现环境感知、决策控制等复杂功能,同时面临严格的时间约束与资源瓶颈。文章从网络模型在嵌入式系统加速推理优化的角度,将围绕DNN模型轻量化、推理加速优化与动态任务调度三个方面,详细分析嵌入式智能系统的国内外研究现状。

1. 引言

深度神经网络模型轻量化技术是突破人工智能应用在嵌入式系统部署瓶颈的关键路径,其通过算法重构与参数压缩的双重优化,在可接受网络精度损失范围内构建高效推理模型。在算法层面,知识蒸馏技术实现复杂模型向轻量化架构的能力迁移,配合模块化网络设计降低结构冗余;参数剪枝(结构化/非结构化)、量化(二值化/混合精度)及低秩分解等方法系统性地减少模型计算量[1]。硬件适配层面则通过稀疏矩阵加速器、多分支网络架构等定制化设计,提升轻量化模型在嵌入式异构平台的能效表现,形成算法–硬件协同优化方法[2]。

面向大语言模型的嵌入式部署需求,轻量化技术呈现细粒度创新趋势:一方面,根据量化所应用的不同阶段,可以将量化方法分为三类:量化感知训练(QAT, Quantization-Aware Training)、量化感知微调(QAF, Quantization-Aware Fine-tuning)及训练后量化(PTQ, Post-Training Quantization) [3]。QAT在模型的训练过程中采用量化,QAF在预训练模型的微调阶段应用量化,PTQ在模型完成训练后对其进行量化,并结合硬件特性开发出极限低比特的整型(如INT4、INT8)压缩方案;另一方面,混合专家模型等异构架构革新了模型部署范式,通过大小模型动态协作实现推理效率的阶跃式提升[4]。此类技术使百亿参数级模型在嵌入式设备端的实时推理成为可能,推动嵌入式系统向智能认知层级跨越。

2. 嵌入式智能系统推理优化加速技术发展现状

当前嵌入式智能系统的网络模型部署主要集中在推理加速优化,其技术策略在保持模型精度的前提下提升运行效率。核心优化方向包括网络模型编译优化、异构资源调度以及存储计算优化。英伟达的TensorRT推理框架通过算子融合与内存优化技术有效提升了推理速度[5]。关于网络模型推理任务在异构计算单元上的分配方法,当前研究工作采用模型并行、数据并行和流水线并行等模型的推理加速方法,进一步提升了嵌入式系统上的模型推理性能[6]。

在大语言模型在嵌入式系统上优化部署方面,伊利诺伊大学针对大模型输出长度不确定导致的端到端推理时间不可预测问题,提出了一种推测性最短作业优先调度器。该方案利用轻量级代理模型预测大模型输出序列长度,有效解决了传统先到先服务调度的队首阻塞问题[7]。英伟达开发了动态内存压缩技术,通过在推理过程中在线压缩键值缓存,成功缓解因输入序列长度与批处理规模线性增长引发的缓存膨胀问题[8]。首尔大学提出的细粒度调度机制实现了迭代级连续批处理,可通过动态整合多个大模型请求显著提升推理效率[9]。针对Transformer架构的计算特性,学界提出了KV缓存复用、FlashAttention以及PageAttention等加速方法[10],并结合投机采样与混合专家模型技术,在保证模型精度的前提下实现推理效率突破。

国内研究团队在模型推理加速领域取得显著进展。北京邮电大学在片上神经处理单元实现高效设备端大模型预填充加速的系统,该系统通过在提示供工程、张量和模型三个层次上优化了大模型在端侧设备上的推理,从而显著减少了推理延迟[11]。东北大学在边端系统推理加速方面积累了较多的系统部署优化基础,其中GPU并行加速方面研究了GPU内部异构计算核心的并行策略,提升了系统整理利用率和任务吞吐量[12]。国内人工智能团队DeepSeek通过创新的多头隐式注意力(MLA)设计,突破了现有优化方案的瓶颈,使得模型在存储和计算效率上达到了新的高度[13]。

3. 动态智能任务实时调度方法发展现状

动态神经网络通过运行时自适应调整模型结构或参数,成为实时系统应对计算资源约束的关键技术。其核心优势在于能够根据输入特征(如图像尺寸、批处理规模)及系统约束(如截止期限、资源限制),如图1所示,动态神经网络通过灵活调整网络压缩率、分支路径或输出节点,实现负载的动态适配[14]-[16]。例如,通过动态调节输入图像分辨率或网络分支选择,模型可在保证模型精度的同时显著降低推理延迟,满足工业物联网、自动驾驶等场景的实时性需求。

Figure 1. Dynamic neural network-based workload adjustment method

1. 动态神经网络调节计算负载方法

在动态推理DNN任务方面,学术界提出了多维度的系统调度方法。美国得克萨斯大学所提出的近似网络,量化了计算负载缩减与精度/时延的关联模型,支持运行时动态负载调整[17] [18]。韩国庆熙大学研究者结合GPU最坏执行时间分析与自适应图像缩放技术,设计了动态路径切换机制,在任务截止期约束下将精度损失降至最低[19] [20]。工业界则聚焦轻量化动态架构创新,如三星公司提出的分支条件神经网络(BPNet)实现了系统化的时间与精度权衡[21]。苹果公司开发的UPSCALE通道剪枝策略通过权重重排序技术,实现了无显著时延代价的动态网络裁剪[22]。微软提出基于全局的大批量LLM推理优化前缀共享和面向吞吐量的令牌批处理方法,通过全局前缀识别与请求调度重组、内存中心的分批处理及水平融合注意力核优化,实现共享前缀的KV上下文高效复用、预填充与解码阶段的GPU负载均衡,显著提升工业场景下大批量LLM推理效率[23]。北卡罗莱纳大学提出的SubFlow框架从模型结构层面出发,利用动态诱导子图策略在运行时根据任务截止期自适应选择子网络路径,实现了可变时间预算下的低时延高精度推理,为网络任务动态推理提供了新思路[24]。韩国汉阳大学提出的Exegpt系统则从系统层面出发,引入约束感知资源调度机制,通过联合优化批量大小与GPU分配,在延迟约束下实现高吞吐并发推理,体现了动态推理在资源调度与QoS保障方面的潜力[25]。

国内学者在动态自适应负载建模与部署优化方面取得显著进展。清华大学团队系统阐述了动态神经网络的理论框架[16]。上海交通大学通过扩展深度学习编译器实现了动态网络的高效推理支持[26]。上海科技大学进一步提出带时间约束的自适应任务模型,构建了兼顾服务质量与实时性的调度优化框架[1]。西北工业大学则聚焦环境自适应技术,通过动态调整模型参数降低资源消耗,为智能物联网系统提供高效解决方案[27]。香港中文大学利用深度学习编译技术在GPU上实现多DNN推理任务调度,在不损失网络精度的情况下,通过神经网络图和内核优化,提高GPU并行性,减少多任务之间的资源争用[28]。东北大学在异构CPU-GPU平台上的多DNN调度方面[29],采用有效的CUDA流优先级管理方法实现了不同优先级多DNN任务在共享GPU上的实时调度策略。

4. 发展趋势与展望

随着大模型逐步渗透至边缘端,主流技术的发展推动了模型轻量化和压缩技术的突破。通过模型压缩、量化和知识蒸馏等手段,使得模型在资源受限的嵌入式设备(如手机和机器人)上实现高效推理和实时响应,同时配合实时调度技术,确保动态任务处理能力。2025年被视为“具身智能元年”,嵌入式系统借助轻量化和压缩技术,助力人形机器人在工业、医疗、家庭和自动驾驶等场景中完成复杂操作与实时决策,体现了主流技术在物理交互领域的应用优势和调度能力。原生多模态大模型整合视觉、音频、文本及3D数据,通过端到端训练实现数据对齐,并借助低功耗AI芯片和边缘计算平台降低推理延迟。此过程中,模型轻量化与实时调度技术是实现综合感知与实时处理的关键支撑。未来嵌入式智能系统将向垂直领域定制化发展,例如医疗诊断、农业机器人和消费电子。主流技术的发展促使模型更轻量、压缩更高效,同时借助实时调度实现自主智能体的动态任务管理,推动“All-in-One”超级应用的崛起,实现多场景智能服务。总之,嵌入式智能系统的发展正依托主流技术的模型轻量化、压缩技术及实时调度能力,实现高效推理、多模态融合和精细化物理交互。未来,这些技术将在垂类应用与自主智能体领域发挥核心作用。

基金项目

本文受山东省自然科学基金资助项目ZR2024QF052。

参考文献

[1] Wang, W., Chen, W., Luo, Y., Long, Y., Lin, Z., Zhang, L., et al. (2024) Model Compression and Efficient Inference for Large Language Models: A Survey. arXiv: 2402.09748.
[2] Liu, D., Kong, H., Luo, X., Liu, W. and Subramaniam, R. (2022) Bringing AI to Edge: From Deep Learning’s Perspective. Neurocomputing, 485, 297-320. [Google Scholar] [CrossRef] 
[3] Zhou, Z., Ning, X., Hong, K., et al. (2024) A Survey on Efficient Inference for Large Language Models.
[4] Dai, D., Deng, C., Zhao, C., Xu, R.X., Gao, H., Chen, D., et al. (2024) DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-Of-Experts Language Models. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Bangkok, 11-16 August 2024, 1280-1297. [Google Scholar] [CrossRef] 
[5] NVIDIA. (2024). TensorRT-LLM [Computer Software]. GitHub.
[6] Ascend. (2024). AscendSpeed [Computer Software]. GitHub.
[7] Qiu, H., Mao, W., Patke, A., et al. (2024) Efficient Interactive LLM Serving with Proxy Model-Based Sequence Length Prediction. arXiv: 2404.08509.
[8] Nawrot, P., Łańcucki, A., Chochowski, M., et al. (2024) Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference. arXiv: 2403.09636.
[9] Yu, G.I., Jeong, J.S., Kim, G.W., et al. (2022) Orca: A Distributed Serving System for {Transformer-Based} Generative Models. 16th USENIX Symposium on Operating Systems Design and Implementation (OSDI 22), 521-538.
[10] Kwon, W., Li, Z., Zhuang, S., Sheng, Y., Zheng, L., Yu, C.H., et al. (2023) Efficient Memory Management for Large Language Model Serving with PagedAttention. Proceedings of the 29th Symposium on Operating Systems Principles, Koblenz, 23-26 October 2023, 611-626. [Google Scholar] [CrossRef] 
[11] Xu, D., Zhang, H., Yang, L., et al. (2024) Empowering 1000 Tokens/Second On-Device LLM Prefilling with MLLM-NPU. arXiv: 2407.05858v1.
[12] Pang, W., Jiang, X., Liu, S., Qiao, L., Fu, K., Gao, L., et al. (2024) Control Flow Divergence Optimization by Exploiting Tensor Cores. Proceedings of the 61st ACM/IEEE Design Automation Conference, San Francisco, 23-27 June 2024, 1-6. [Google Scholar] [CrossRef] 
[13] Meng, F., Yao, Z. and Zhang, M. (2025) TransMLA: Multi-Head Latent Attention Is All You Need. arXiv: 2502.07864.
[14] 王子曦, 邵培南, 邓畅. 异构并行平台的Caffe推理速度提升方法[J]. 计算机系统应用, 2022, 31(2): 220-226.
[15] 尚绍法, 蒋林, 李远成, 等. 异构平台下卷积神经网络推理模型自适应划分和调度方法[J]. 计算机应用, 2023, 43(9): 2828-2835.
[16] Han, Y., Huang, G., Song, S., Yang, L., Wang, H. and Wang, Y. (2022) Dynamic Neural Networks: A Survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44, 7436-7456. [Google Scholar] [CrossRef] [PubMed]
[17] Bo, Z., Guo, C., Leng, C., Qiao, Y. and Wang, H. (2024) RTDeepEnsemble: Real-Time DNN Ensemble Method for Machine Perception Systems. 2024 IEEE 42nd International Conference on Computer Design (ICCD), Milan, 18-20 November 2024, 191-198. [Google Scholar] [CrossRef] 
[18] Han, Y., Liu, Z., Yuan, Z., Pu, Y., Wang, C., Song, S., et al. (2024) Latency-Aware Unified Dynamic Networks for Efficient Image Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 46, 7760-7774. [Google Scholar] [CrossRef] [PubMed]
[19] Heo, S., Jeong, S. and Kim, H. (2022) RTScale: Sensitivity-Aware Adaptive Image Scaling for Real-Time Object Detection. 34th Euro-Micro Conference on Real-Time Systems, Modena, 5-8 July 2022, 1-22.
[20] Heo, S., Cho, S., Kim, Y. and Kim, H. (2020) Real-Time Object Detection System with Multi-Path Neural Networks. 2020 IEEE Real-Time and Embedded Technology and Applications Symposium (RTAS), Sydney, 21-24 April 2020, 174-187. [Google Scholar] [CrossRef] 
[21] Park, K., Oh, C. and Yi, Y. (2020) BPNet: Branch-Pruned Conditional Neural Network for Systematic Time-Accuracy Tradeoff. 2020 57th ACM/IEEE Design Automation Conference (DAC), San Francisco, 20-24 July 2020, 1-6. [Google Scholar] [CrossRef] 
[22] Wan, A., Hao, H., Patnaik, K., et al. (2023) UPSCALE: Unconstrained Channel Pruning. arXiv: 2307.08771.
[23] Zheng, Z., Ji, X., Fang, T., Zhou, F., Liu, C. and Peng, G. (2024) BatchLLM: Optimizing Large Batched LLM Inference with Global Prefix Sharing and Throughput-Oriented Token Batching. arXiv: 2412.03594.
[24] Lee, S. and Nirjon, S. (2020) SubFlow: A Dynamic Induced-Subgraph Strategy toward Real-Time DNN Inference and Training. 2020 IEEE Real-Time and Embedded Technology and Applications Symposium (RTAS), Sydney, 21-24 April 2020, 15-29. [Google Scholar] [CrossRef] 
[25] Oh, H., Kim, K., Kim, J., Kim, S., Lee, J., Chang, D., et al. (2024) ExeGPT: Constraint-Aware Resource Scheduling for LLM Inference. Proceedings of the 29th ACM International Conference on Architectural Support for Programming Languages and Operating SystemsVolume 2, La Jolla, 27 April-1 May 2024, 369-384. [Google Scholar] [CrossRef] 
[26] Cui, W., Han, Z., Ouyang, L., et al. (2023) Optimizing Dynamic Neural Networks with Brainstorm. 17th USENIX Symposium on Operating Systems Design and Implementation (OSDI 23), Boston,10-12 July 2023, 797-815.
[27] Wang, H., Zhou, X., Yu, Z., Liu, S., Guo, B., Wu, Y., et al. (2020) Context-aware Adaptation of Deep Learning Models for IoT Devices. Scientia Sinica Informationis, 50, 1629-1644. [Google Scholar] [CrossRef] 
[28] Zhao, Z., Ling, N., Guan, N. and Xing, G. (2022) Aaron: Compile-Time Kernel Adaptation for Multi-DNN Inference Acceleration on Edge GPU. Proceedings of the 20th ACM Conference on Embedded Networked Sensor Systems, Boston, 6-9 November 2022, 802-803. [Google Scholar] [CrossRef] 
[29] Pang, W., Luo, X., Chen, K., Ji, D., Qiao, L. and Yi, W. (2023) Efficient CUDA Stream Management for Multi-DNN Real-Time Inference on Embedded GPUs. Journal of Systems Architecture, 139, Article ID: 102888. [Google Scholar] [CrossRef] 
本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭