CLB是PL部分的基础逻辑单元,每个CLB包含多个 SLICE,每个 SLICE 集成查找表(LUT)、触发器、多路选择器等组件。Zynq UltraScale的CLB采用升级后的架构,LUT支持6输入配置,可灵活实现组合逻辑功能,同时部分LUT可配置为分布式RAM或移位寄存器,提升资源利用率;触发器支持异步复位/置位与同步使能功能,满足时序逻辑设计的多样化需求。通过CLB的组合与互联,用户可实现自定义逻辑电路,如传感器数据预处理模块、协议解析电路、状态机控制器等,适配不同应用场景的定制化需求。
DSP48单元是PL部分的数值计算核心,针对乘法、累加、滤波等数字信号处理任务优化设计,Zynq UltraScale的DSP48单元支持18x18位乘法运算,部分高端型号集成数千个DSP48单元,形成大规模并行计算阵列。该单元支持浮点运算、复数运算等高级功能,可通过流水线设计实现高频次、低延迟的数值计算,在自动驾驶的激光雷达点云处理、图像目标检测、雷达信号滤波等计算密集型场景中发挥核心作用,相比软件串行计算效率提升数十倍甚至上百倍。
Block RAM为PL部分提供高速片上存储资源,每个Block RAM的容量通常为36KB,支持单端口、双端口、伪双端口等多种配置模式,可灵活实现数据缓存、FIFO队列、ROM等存储功能。Block RAM的读写延迟仅为几个时钟周期,且支持字节使能、奇偶校验等功能,能够为并行处理模块提供低延迟的数据支撑,例如在视频编解码中用于帧缓存,在传感器数据处理中用于临时数据存储。部分高端型号还集成了UltraRAM资源,单块容量可达288KB,进一步提升片上存储的容量与带宽。
GT高速串行收发器是PL部分实现高速数据传输的关键组件,Zynq UltraScale的GT收发器支持多种速率等级,从10Gbps到100Gbps以上不等,适配不同高速接口标准。通过GT收发器,可实现PCIe 4.0、100G以太网、CPRI、JESD204B等高速协议的硬件实现,满足自动驾驶中多传感器数据的高速传输、车路协同中的大容量数据交互等场景需求。此外,GT收发器还支持信号均衡、时钟恢复、误码检测等功能,确保高速信号传输的可靠性。
针对人工智能与深度学习场景,部分Zynq UltraScale+型号集成了专用的深度学习处理单元(DPU, Deep Learning Processing Unit),该单元基于硬件化的深度学习算法架构,支持CNN、RNN等主流神经网络模型的加速运行。DPU通过并行计算阵列与优化的指令集,可高效完成卷积、池化、激活等神经网络运算,相比通用处理器的软件实现,算力密度提升显著,且延迟更低,能够满足自动驾驶中实时目标检测、语义分割等AI任务的需求。
Zynq UltraScale通过高速互联总线与DMA控制器,实现了PS与PL之间的低延迟、高带宽数据交互,为异构协同提供了坚实的硬件支撑。其互联架构以AXI(Advanced eXtensible Interface)总线为核心,包括AXI-Lite、AXI-Stream、AXI-MM(Memory-Mapped)三种主要总线类型,分别承担不同的交互任务:AXI-Lite总线用于PS对PL模块的配置与状态读取,具有控制简单、带宽需求低的特点;AXI-Stream总线用于流式数据的传输,如视频帧、传感器数据流等,支持无地址的连续数据传输,延迟极低;AXI-MM总线用于内存映射的数据交互,支持PS与PL对外部内存的共享访问,带宽高且灵活性强。