当前位置:首页 > 工业控制 > 电子设计自动化
[导读] 随着宽带Internet的快速发展和电子设备计算能力的迅速提高,在Internet上实时传输高清晰度视频信息成为可能,以Internet为传输媒介的视频会议、视频监控、Internet电视台等视频应用方兴未艾。这些应用的一个共同特点是

 随着宽带Internet的快速发展和电子设备计算能力的迅速提高,在Internet上实时传输高清晰度视频信息成为可能,以Internet为传输媒介的视频会议、视频监控、Internet电视台等视频应用方兴未艾。这些应用的一个共同特点是,都需要一个高性能的实时视频编码器,特别是高分辨率的视频应用给视频编码器的计算能力提出了很高的要求。例如,一幅720×576的4∶2∶2视频格式的画面,包含有3240个16×16的YUV宏块(MacroBlock,即MB)。如果该视频帧按照P帧或者B帧进行压缩,那么每一个YUV宏块都要进行运动估计、运动补偿、DCT(Discrete Cosine Transform)/反DCT变换、量化/反量化和VLC(Variable Length Coding)等环节的运算。如果进行实时压缩(每秒钟压缩25帧)的话,大致需要316~5GIPS(Instruction persecond)的计算能力。

目前,单一的CPU/DSP一般还不具备这样的计算能力。为了解决高清晰画面的实时视频压缩问题,本文提出了DSP和FPGA(Field Pro-grammable Gate Array)协同设计方案。使用FPGA完成视频采集、YUV(视频亮度Y、色度分量

UV)分离、数据I/O(Input/Output)等所有周边功能,使用高性能的DSP进行视频压缩编码,因而在视频编码器内DSP和FPGA能够进行流水操作,有效地提高了编码器的性能。

为了降低算法的计算复杂度,本文提出了基于宏块空间复杂度的宏块编码类型判别算法(MTJBSC)。在标准MPEG24视频运动估计算法中,判别宏块的编码类型是通过计算当前宏块内像素值方差和参考宏块与当前宏块之间的方差来实现的,因此计算量很大。MTJBSC算法首先计算出当前宏块的空间负责度(MBC),然后通过比较当前宏块的MBC与SAD(Sum of Absolute Difference)值来判断当前宏块的编码类型,大大降低了算法的计算复杂度。

1 硬件设计方案

基于TI公司的图像开发工具包(Imaging Developer Kit,即IDK)[2]架构,设计了视频编码器的硬件平台。从整体上来讲,视频编码器的硬件实现由DSP和FPGA两个模块组成,其逻辑框图如图1所示。由于视频压缩编码计算量很大,为了尽可能提高视频压缩帧率,由DSP专门负责视频压缩编码,而视频采集、YUV转换和编码器I/O接口等其它功能则交由FPGA模块来实现。

如图1所示,用户控制命令(例如视频压缩模式)由FPGA模块首先截获,然后FPGA模块向DSP模块产生外部中断,DSP在响应中断时读取存储在FPGA中的用户控制命令字,然后DSP解析命令字,并根据用户要求的视频格式、帧图像分辨率和视频压缩码流速率进行视频压缩编码。

模拟视频信号经视频解码器转换为裸视频数据流,该数据流(或从数字摄像机直接获得的数据流)经FPGA预处理后送入帧存中。DSP读取帧存中的数据进行压缩编码,压缩后的视频数据送入FIFO中,最后FIFO中的数据通过串口送给信道编码器。

FPGA模块的逻辑框图见图2。如图2所示,视频解码器首先将模拟视频信号量化为复合的YUV数据,然后经FPGA进行YUV分离(和滤波)后送到帧存(图1中的SDRAM1)中,C6201使用DMA通道(异步方式)通过FPGA读取帧存中的YUV数据进行压缩编码。帧存(SDRAM1)在刷新(refresh)或缺页(pagemiss)时会引起DMA读等待,为了平滑这种等待引起的DMA读数据的抖动,设计时在FPGA的内部实现了一个高速FIFO。视频帧存采用了乒乓结构,将8M字节SDRAM分为两个4M字节的地址空间(每一个地址空间可以容纳一帧YUV视频数据(720×576×115字节)),一个地址空间用于存储当前正在采集的视频数据,另一个地址空间用于DSP的数据读取。在压缩CCIR601格式的视频图像(每秒25帧)时,由于DSP的处理速度(大约每秒10帧)慢于视频采集的速度,所以FPGA模块在采集完一帧数据进入等待状态,直到DSP压缩完上一帧视频数据时,这2个地址空间才进行互换。

DSP模块接收FPGA模块送过来的YUV视频数据,然后进行视频压缩编码,最后将压缩的码流再转交给FPGA模块,由FPGA模数据发送出去。DSP模块的存储单元(图1中的SDRAM2)用来存放参考帧数据和中间运算结构。MPEG-4压缩编码算法指令存放在PROM中,为缩短取指时间,编码器在启动时已将指令从PROM读到片内存储器中。MPEG压缩码流是变速码流(VBR),而当该码流在恒定速率(CBR)的信道上发送时,需要一个FIFO缓存来平滑编码器输出码率的波动。

该设计的特点主要表现在以下2个方面:

①可扩展性好。FPGA模块除了负责数据I/O功能外,还作为协处理器使用,可根据需要增加FPGA的门数来实现原来由DSP完成的功能,例如Huffman编码、运动估计等;

②灵活的视频压缩编码格式控制,编码器能够实时地根据用户的要求进行压缩编码。

2 视频压缩算法优化

(1)MPEG-4数据流优化设计

实验表明,如果代码和代码要访问的数据在C6201片内存储区(PRAM和DRAM),其代码执行速度要比代码和数据在片外同步SDRAM中平均快17倍(片内总线宽度为256位,数据访问为1个CPU周期)。因此,将执行代码和数据放到片内将大大提高程序的运行速度。

在MPEG-4算法中,由于没有考虑存储器的限制,算法每次读入一帧YUV数据进行压缩编码。但对于C6201来说,片内只有64K字节DRAM,不可能一次将一帧数据读到片内存储器进行压缩。如果将一帧数据一次读到片外存储器(SDRAM)中进行压缩,又会大大降低代码的执行速度,因此,我们对视频压缩算法进行了改进,一次对一个切片(slice)数据进行压缩编码,并将压缩码流数据直接送入到发送缓冲区中。

编码器一次将一个切片的YUV数据(当前帧)读入到片内存储器中,然后根据计算决定切片宏块的编码类型(帧内/帧间编码)。如果宏块进行帧内编码,则YUV数据被分成8×8的像素块(一个宏块包含4个Y分量像素块和2个UV分量像素块)进行DCT变化,以消除图像空间冗余信息。DCT变化后的系数经过量化后进行游程编码(RunLengthCoding即RLC)和变长编码(VariableLengthCoding,即VLC),变长编码的结果送入到视频发送缓冲区中。与此同时,量化后的DCT系数经过反量化(结果放入内存B中)和反DCT过程形成重建帧,重建帧用作下一帧的参考帧。

如果宏块进行帧间编码,则以宏块为单位进行运动估计,根据运动估计的结果建立预测帧。当前帧和预测帧的差值形成了残差帧(residue frame),残差帧的编码过程与帧内编码过程相同。

(2)宏块编码类型判别算法

在MPEG-4算法中采用了快速运动估计算法,但是在进行宏块编码类型判别时计算量仍然很大。为此,本文提出了基于宏块空间复杂度的判别算法MTJBSC,进一步降低了运动估计过程中的计算量。

在编码P帧宏块的时候,首先要决定宏块是进行帧内编码还是帧间编码。在标准MPEG-4算法中是通过以下方法决定的[5]:

设参考宏块的像素值(Y分量值,以下同)用P(x,y)表示,当前宏块的像素值用C(x,y)表示,x,y表示宏块的纵、横坐标,M,N表示宏块的宽和高。当前宏块像素值的方差用EVAR表示,其值为

参考宏块和当前宏块的方差用EVMC表示,其值为

EVMC值越小(比如EVMC

if(EVMC>EVARandEVMC≥9)then帧内编码else帧间编码

显然,在MPEG-4算法中,为了判断宏块的编码模式进行了大量的计算(对于每一个P帧宏块都要进行上面的计算)。为了减少计算复杂度,本文提出了基于宏块空间复杂度(EMBC)的宏块类型判断(MTJBSC)算法,用以判断P帧宏块的帧内/帧间编码模式。

定义宏块的空间复杂度为水平方向上相邻像素差值的绝对值之和,即

在基于帧间差原理进行视频压缩的MPEG标准中,一般都是采用绝对差总合(ESAD)来进行运动估计的。在MPEG标准中,宏块的ESAD值定义为

式中:m,n为该宏块的运动向量。

根据上述定义,MTJBSC算法可简单描述为:

如果宏块的ESAD小于其EMBC,则该P帧宏块进行帧间编码;否则进行帧内编码。实验表明,在压缩质量和压缩输出码率均没有大的变动的情况下,该算法有效降低了视频编码器的计算复杂度,编码器的压缩帧率(f/s)得到明显提高。

3 测试结果

表1为编码器进行装载测试的测试结果(1帧的平均值)。装载测试是首先将视频测试序列装载到编码器的SDRAM中,然后进行压缩编码。使用的视频序列为标准测试序列mother(CIF格式,彩色,YUV4∶2∶0,5帧),DSP主频设置为200MHz。

表2为美国TI(TexasInstrument)公司基于DSK6711EVM板开发的H.263视频编码器的性能测试数据(装载测试)[6],DSP主频为150MHz。TI公司针对DSK6711对H.263做了全面优化,算法关键代码采用了线性汇编语言编写。H.263视频编码算法与MPEG视频编码算法的压缩编码原理、过程和计算复杂度大致相当,因此二者具有可比性。

从表1和表2可以看出,研制的视频编码器平均压缩帧率为39.2f/s(CIF图像),而TI公司开发的视频编码器平均压缩帧率为20f/s(CIF图像),绝对性能提高了96%,考虑到DSP主频的因素,相对性能仍然提高了47%。

4 结论

采用DSP和FPGA协同技术设计实现了一个高性能的MPEG24视频编码器。使用FPGA完成编码器I/O功能,使用DSP进行视频压缩编码,二者能够很好地并行工作,系统设计结构简捷,硬件工作可靠。同时,针对DSPC6201片内资源特点优化了视频压缩的数据流模式,采用MTJBSC算法有效地降低了压缩算法的计算复杂度。测试结果表明,采用MPEG24视频标准该视频编码器每秒能够每秒压缩39.2帧CIF图像。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

数字信号处理器(DSP)在通信、控制、图像处理等多个领域扮演着越来越重要的角色。TMS320F2808PZA作为德州仪器(Texas Instruments)推出的一款高性能DSP控制器,其独特的架构和强大的功能使其在众...

关键字: tms320f2808pza 数字信号处理器 DSP

从世界上第一颗DSP诞生至今30年来,国际一线老牌芯片厂商长期占据领先技术和市场地位,国内芯片厂商在DSP上的声量很小。然而经过了6年的沉心打磨之后,湖南进芯电子开始在这一领域崭露头角。凭借着更贴近中国本土特色的差异化产...

关键字: DSP MCU 电机控制 进芯电子

Bluespec支持加速器功能的RISC-V处理器将Achronix的FPGA转化为可编程SoC

关键字: RISC-V处理器 FPGA SoC

为无处不在的端侧设备插上AI的翅膀,AMD发布第二代Versal™ 自适应 SoC

关键字: AMD FPGA 自适应SoC AI 边缘计算

Pmod接口可以说是数字电路板的连接革命。随着科技的飞速发展,数字电路板间的通信与连接技术也在不断创新和进步。Pmod接口,作为一种新兴的数字接口标准,正逐渐成为数字电路板间通信的桥梁,为电子设备的连接和通信带来了革命性...

关键字: pmod接口 FPGA 数字电路板

近日举办的GTC大会把人工智能/机器学习(AI/ML)领域中的算力比拼又带到了一个新的高度,这不只是说明了通用图形处理器(GPGPU)时代的来临,而是包括GPU、FPGA和NPU等一众数据处理加速器时代的来临,就像GPU...

关键字: FPGA AI 图形处理器

当我们提到成本优化型FPGA,往往与简化逻辑资源、有限I/O和较低制造工艺联系在一起。诚然,在成本受限的系统设计中,对于价格、功耗和尺寸的要求更为敏感;但随着一系列创新应用的发展、随着边缘AI的深化,成本优化型FPGA也...

关键字: AMD FPGA Spartan 边缘计算

全球领先的高性能现场可编程门阵列(FPGA)和嵌入式FPGA(eFPGA)半导体知识产权(IP)提供商Achronix Semiconductor公司宣布,该公司参加了由私募股权和风险投资公司Baird Capital举...

关键字: FPGA 智能汽车 eFPGA

全新 FPGA 能为嵌入式视觉、医疗、工业互联、机器人与视频应用提供高数量 I/O、功率效率以及卓越的安全功能

关键字: FPGA 嵌入式视觉 机器人

Altera致力于为客户提供端到端的FPGA、易于使用的AI、软件和弹性供应链。

关键字: FPGA AI
关闭
关闭