当前位置:首页 > 嵌入式 > 嵌入式软件
[导读]用PowerPC实现高带宽 TCP/IP 性能

今天,实现线速 TCP/IP 性能仍旧是一项重大设计挑战。在本文中,我们将讨论限制 TCP/IP 性能的单位字节和单位包的处理成本,并给出在基于嵌入式处理器的应用中实现千兆位以太网 TCP/IP 性能最大化的技术。

  千兆位以太网性能的获得是通过利用多端口 DDR 存储器控制器,在嵌入式 PowerPC处理器局部总线 (PLB) 接口与两个数据端口之间分配存储器带宽而实现的。每个数据端口连接到一个直接存储器访问 (DMA) 控制器,从而允许硬件外设对存储器进行高带宽访问。

  系统架构
  存储器带宽对高性能网络连接应用来说是一个重要考虑事项。通常,外部 DDR 存储器为处理器和一个或多个高带宽外设(如以太网)所共享。一个多端口存储器控制器负责将可用存储器带宽高效地分配给处理器接口和流式外设,包括以太网。流式外设通过点对点流式接口由直接存储器访问 (DMA) 控制器链接到存储器。DMA 控制器实行分散-收集 (scatter-gather) 机制,由此将多个缓冲区转换到以太网或其他流式外设上的一个数据流,或相反。以太网外设对发送和接收路径同时实行校验和卸载,以优化 TCP 性能。下图显示了上述系统的一种框图。


  TCP/IP 单位字节处理成本
  当处理器处理有效载荷数据时就会产生单位字节处理成本。这种类型的两个最常见的操作是缓冲区复制和 TCP 校验和计算。缓冲区复制意味着重大处理开销,这有两个原因:
  1. 大部分复制都不是必要的。
  2. 处理器不是高效的数据搬运工。

  TCP 校验和计算代价高昂,因为需要对每个有效载荷数据字节进行计算。支持嵌入式 TCP/IP 的应用(如医疗成像)要求使用接近线速的 TCP 带宽,以便通过千兆位以太网可靠地传输图像数据。数据是从高分辨率图像源生成的,而不是处理器。这种情况下,引入零复制软件 API 并将校验和计算利用FPGA 逻辑结构实现,将彻底地消除单位字节处理成本。"零复制"是用来描述一个 TCP 软件接口不会发生任何缓冲区复制的术语。Linux 和其他操作系统已经引入了用于此目的的软件接口,商用独立 TCP/IP 栈厂商如 Treck 也提供了类似的零复制特性。这些软件特性允许消除用户应用程序与 TCP/IP 栈或操作系统之间的缓冲区复制。

  系统的分散-收集与校验和卸载特性为零复制功能提供了所需的硬件支持。分散-收集特性是 DMA 控制器的一种灵活性,它允许软件缓冲区位于任意字节偏移处。这避免了处理器复制未对齐或碎片化的缓冲区。

  校验和卸载是以太网外设的一种特性。它允许当以太网帧在主存储器与外设的硬件 FIFO 之间传输时,在 FPGA 结构中进行 TCP 有效载荷的校验。这些系统特性消除了代价较高的缓冲区复制与处理器校验和操作,让处理器专心执行协议操作和用户功能。

  TCP/IP 单位包处理成本
  单位包处理成本与涉及包的发送或接收的操作有关。包中断、硬件接口和头处理等,都是单位包处理成本的例子。中断处理成本对处理器和存储器子系统构成相当大的负担,特别是在传输小包时。中断结合 (Interrupt coalescing) 是此类系统中用来缓解这种压力的一种技术,它将中断处理成本通过多个包分期摊还。DMA 引擎将一直等待,直到出现 n 个要处理的帧,然后才中断处理器,其中 n 是一个软件可调的值。

  通过减少传输帧的数量,大尺寸包(9,000 字节的巨帧)的传输具有相似的效果,由此可得到中断数。它把单位包处理成本分摊在一个较大的数据有效载荷上。

  设计实现
  实现这种体系结构的一个例子是赛灵思公司的千兆位系统参考设计 (GSRD)。它面向基于 TCP/IP 的协议与用户数据接口(如高分辨率图像捕捉或光纤信道)之间的高性能桥接。GSRD 的组件包含解决 TCP/IP 系统的单位字节处理成本和单位包处理成本的特性。对于需要使用嵌入式操作系统的应用,可提供 MontaVista Linux端口和来自 Treck 的商业独立 TCP/IP 栈,以满足具有最高带宽要求的应用。GSRD 使用巨帧可提供高达 890 Mbps 的发送 TCP 性能,可采用赛灵思公司目前最新的 FPGA 技术来实现。 GSRD 可以从 http://www.xilinx.com/gsrd/ 下载得到。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

在AI训练集群和超算中心场景中,传统CPU处理网络协议栈导致的20μs级延迟和30%的CPU资源占用已成为性能瓶颈。NVIDIA BlueField-3 DPU通过硬件卸载TCP/IP处理,结合内核旁路(Kernel B...

关键字: DPU BlueField-3 TCP/IP

June 24, 2025 ---- 近期市场对于NVIDIA RTX PRO 6000系列产品的讨论声量高,预期在需求支撑下,整体出货将有不俗表现。然而,TrendForce集邦咨询资深研究副总吴雅婷认为,该系列产品受...

关键字: 存储器 供应链 边缘AI

在当今数据爆炸的时代,数据中心面临着前所未有的网络性能挑战。传统的网络处理方式主要依赖CPU,但随着网络流量的急剧增长,CPU在网络协议栈处理上的开销日益增大,导致系统整体性能下降、延迟增加。数据处理单元(DPU)的出现...

关键字: DPU TCP/IP lueField-3

在人工智能训练、实时图形渲染与科学计算领域,存储器带宽已成为制约系统性能的核心瓶颈。HBM3与GDDR7作为当前显存技术的两大巅峰之作,分别通过三维堆叠与信号调制技术的突破,为不同应用场景提供了差异化解决方案。本文从架构...

关键字: 存储器 HBM3

传统存储器技术逼近物理极限,铁电场效应晶体管(FeFET)凭借其独特的极化翻转机制与非易失性逻辑特性,成为突破冯·诺依曼架构瓶颈的关键技术。FeFET通过将铁电材料集成至晶体管栅极,实现了存储与逻辑功能的深度融合,其物理...

关键字: FeFET 存储器

数字化转型与人工智能技术驱动,数据中心存储架构正经历从传统磁盘阵列向全闪存与新型内存技术的深度变革。全闪存阵列(AFA)凭借亚毫秒级延迟与高IOPS性能重塑存储性能基准,而持久化内存(PMEM)则通过填补DRAM与SSD...

关键字: 数据中心 存储器

AI算力与数据中心规模持续扩张,存储器纠错码(ECC)技术已成为保障数据完整性的核心防线。从硬件加速架构到算法优化,ECC技术正通过多维度创新,将内存错误率降低至每万亿小时1次以下,为关键任务系统提供接近零故障的可靠性保...

关键字: 存储器 ECC

存储器供应链安全已成为国家战略的核心命题,从晶圆代工到封装测试,中国存储器产业正通过关键环节的技术突破与生态重构,走出一条从“受制于人”到“自主可控”的替代之路。这条路径不仅关乎产业安全,更承载着数字经济时代的技术主权。

关键字: 存储器 国产化替

AI算力需求爆炸式增长,存储器封装技术正经历从2.5D到3D异构集成的范式变革。这种变革不仅重构了芯片间的物理连接方式,更对散热设计与信号完整性提出了全新挑战。本文从封装架构演进、散热机制创新与信号完整性保障三个维度,解...

关键字: 存储器 散热

数据成为核心生产要素的时代,存储器安全技术已成为保障数字资产隐私与完整性的关键防线。从早期基于硬件的加密引擎到现代可信执行环境(TEE)的生态构建,存储器安全技术经历了从单一防护到体系化协同的演进。本文从硬件加密引擎、存...

关键字: 存储器 TEE
关闭