用PowerPC实现高带宽 TCP/IP 性能

时间：2005-12-16 13:24:00

关键字：高带宽 POWERPC TCP/IP 存储器

手机看文章

扫描二维码
随时随地手机看文章

[导读]用PowerPC实现高带宽 TCP/IP 性能

今天，实现线速 TCP/IP 性能仍旧是一项重大设计挑战。在本文中，我们将讨论限制 TCP/IP 性能的单位字节和单位包的处理成本，并给出在基于嵌入式处理器的应用中实现千兆位以太网 TCP/IP 性能最大化的技术。

　　千兆位以太网性能的获得是通过利用多端口 DDR 存储器控制器，在嵌入式 PowerPC处理器局部总线 (PLB) 接口与两个数据端口之间分配存储器带宽而实现的。每个数据端口连接到一个直接存储器访问 (DMA) 控制器，从而允许硬件外设对存储器进行高带宽访问。

　　系统架构
　　存储器带宽对高性能网络连接应用来说是一个重要考虑事项。通常，外部 DDR 存储器为处理器和一个或多个高带宽外设（如以太网）所共享。一个多端口存储器控制器负责将可用存储器带宽高效地分配给处理器接口和流式外设，包括以太网。流式外设通过点对点流式接口由直接存储器访问 (DMA) 控制器链接到存储器。DMA 控制器实行分散-收集 (scatter-gather) 机制，由此将多个缓冲区转换到以太网或其他流式外设上的一个数据流，或相反。以太网外设对发送和接收路径同时实行校验和卸载，以优化 TCP 性能。下图显示了上述系统的一种框图。

　　TCP/IP 单位字节处理成本
　　当处理器处理有效载荷数据时就会产生单位字节处理成本。这种类型的两个最常见的操作是缓冲区复制和 TCP 校验和计算。缓冲区复制意味着重大处理开销，这有两个原因：
　　1. 大部分复制都不是必要的。
　　2. 处理器不是高效的数据搬运工。

　　TCP 校验和计算代价高昂，因为需要对每个有效载荷数据字节进行计算。支持嵌入式 TCP/IP 的应用（如医疗成像）要求使用接近线速的 TCP 带宽，以便通过千兆位以太网可靠地传输图像数据。数据是从高分辨率图像源生成的，而不是处理器。这种情况下，引入零复制软件 API 并将校验和计算利用FPGA 逻辑结构实现，将彻底地消除单位字节处理成本。"零复制"是用来描述一个 TCP 软件接口不会发生任何缓冲区复制的术语。Linux 和其他操作系统已经引入了用于此目的的软件接口，商用独立 TCP/IP 栈厂商如 Treck 也提供了类似的零复制特性。这些软件特性允许消除用户应用程序与 TCP/IP 栈或操作系统之间的缓冲区复制。

　　系统的分散-收集与校验和卸载特性为零复制功能提供了所需的硬件支持。分散-收集特性是 DMA 控制器的一种灵活性，它允许软件缓冲区位于任意字节偏移处。这避免了处理器复制未对齐或碎片化的缓冲区。

　　校验和卸载是以太网外设的一种特性。它允许当以太网帧在主存储器与外设的硬件 FIFO 之间传输时，在 FPGA 结构中进行 TCP 有效载荷的校验。这些系统特性消除了代价较高的缓冲区复制与处理器校验和操作，让处理器专心执行协议操作和用户功能。

　　TCP/IP 单位包处理成本
　　单位包处理成本与涉及包的发送或接收的操作有关。包中断、硬件接口和头处理等，都是单位包处理成本的例子。中断处理成本对处理器和存储器子系统构成相当大的负担，特别是在传输小包时。中断结合 (Interrupt coalescing) 是此类系统中用来缓解这种压力的一种技术，它将中断处理成本通过多个包分期摊还。DMA 引擎将一直等待，直到出现 n 个要处理的帧，然后才中断处理器，其中 n 是一个软件可调的值。

　　通过减少传输帧的数量，大尺寸包（9,000 字节的巨帧）的传输具有相似的效果，由此可得到中断数。它把单位包处理成本分摊在一个较大的数据有效载荷上。

　　设计实现
　　实现这种体系结构的一个例子是赛灵思公司的千兆位系统参考设计 (GSRD)。它面向基于 TCP/IP 的协议与用户数据接口（如高分辨率图像捕捉或光纤信道）之间的高性能桥接。GSRD 的组件包含解决 TCP/IP 系统的单位字节处理成本和单位包处理成本的特性。对于需要使用嵌入式操作系统的应用，可提供 MontaVista Linux端口和来自 Treck 的商业独立 TCP/IP 栈，以满足具有最高带宽要求的应用。GSRD 使用巨帧可提供高达 890 Mbps 的发送 TCP 性能，可采用赛灵思公司目前最新的 FPGA 技术来实现。 GSRD 可以从 http://www.xilinx.com/gsrd/ 下载得到。