当前位置:首页 > 电源 > 数字电源
[导读]在H.264解码器中,为了能够完成高清码流的实时解码任务,本文提出了一种CABAC硬件加速器的设计方案。

摘  要:在H.264解码器中,为了能够完成高清码流的实时解码任务,本文提出了一种CABAC硬件加速器的设计方案。通过采用高效率的状态机和流水线结构,该方案可在每1~3个时钟周期内完成1bit数据的解码。本设计在中芯国际0.18mm CMOS工艺标准单元库的基础上进行综合,硬件加速器面积为0.38mm2,工作时钟频率可达166MHz。
关键词:CABAC;H.264;硬件加速器

引言
    H.264是由国际电信联盟(ITU)和国际标准化组织(ISO)共同制定的新一代视频编码标准,该标准采用一系列先进的编码技术,在编码效率、网络适应性等诸多方面都超越了以往的视频标准。H.264有两种熵编码方案:一种是从可变长编码方案发展而来的基于上下文的自适应可变长编码CAVLC;另一种是从算术编码发展而来的基于上下文的自适应二进制算术编码CABAC。与CAVLC相比,CABAC可以节省约7%的码流,但增加了10%的计算时间。在解高清码流时,用软件来做CABAC这样复杂的熵解码,无法完成实时解码的任务,因此,设计硬件加速器是非常必要的。

CABAC解码算法
    在H.264解码器的输入码流中,数据的基本单位是句法元素(Syntax Element),码流是由一个个句法元素依次衔接而成的。每个句法元素由若干比特组成,表示某个特定的物理意义。在H.264定义的码流中,句法元素被组织成有层次的结构,分别描述序列(Sequence)、图像(Picture)、片(Slice)、宏块(Macroblock)、子宏块(Subblock)五个层次的信息,CABAC主要负责对片层以下的句法元素进行解码。
CABAC解码的总体过程可以分为三个步骤:初始化、二进制算术解码归一化、反二进制。

初始化
     该过程在每一个片开始时执行,包括上下文模型变量(Context Variable)的初始化和解码引擎(Decoding Engine)的初始化。

二进制算术解码和归一化
    二进制算术解码是CABAC解码的核心部分,该过程实现1bit数据的解码,对每个句法元素进行解码都需要调用该过程。H.264中二进制算术解码有三种模式:规则解码(Decode Decision)、旁路解码(Decode Bypass)和结束解码(Decode Terminate)。对不同句法元素进行解码时,分别调用这三种模式的一种或多种。

反二进制化
    CABAC定义了四种二进制化方法:一元码(Unary)、截断一元码(Truncated Unary)、K阶指数哥伦布码(kth order Exp-Golomb)和定长码(Fixed-Length)。一个句法元素可以对应一种或两种上述二进制化方法,但特殊的是,句法元素mb_type和sub_mb_type的反二进制化独立于上述四种方法,它们通过查表来实现。
  
CABAC硬件加速器的架构设计
H.264解码器的软/硬件划分
    H.264解码过程采用软/硬件联合的解码方案,整个解码器由32位CPU、DSP结构的运算单元和硬件加速器组成。CABAC熵解码部分,主要是一些判断和分支操作,数据接口、吞吐量不大,这些任务由软件和硬件加速器共同完成。本文设计的CABAC解码模块就是一个CABAC硬件加速器。

CABAC硬件加速器的总体构架
    CABAC硬件加速器的总体架构如图1所示。其总体架构分为两层:顶层是CABAC_TOP;底层有7个模块,包括CABAC_Center_ Control_Unit、Context、 Neighbor_MB_Information, Context_Init、AC_next_ state_LPS、 AC_next_state_MPS和RangeLPS。

    CABAC_Center_Control_Unit模块负责上下文模型变量的初始化,解句法元素,更新Context,并将解出的残差数据传给IQ&IDCT模块;Context模块是双口RAM,存放459个上下文模型变量,可同时对一个地址的上下文模型变量进行读操作并对另外一个地址的上下文模型变量进行写操作;Neighbor_MB_Information模块是SRAM,存放宏块信息,CABAC解码器在解析当前宏块中的句法元素时,需要参考上面和左面宏块的信息,因此,需要在该SRAM内保存图像中当前宏块的上一行宏块和该行之前宏块的信息,每解完一个宏块更新该SRAM;Context_Init模块是一块片内ROM,用于初始化变量;3个查找表模块AC_next_state_LPS、AC_next_ state_MPS和RangeLPS由组合逻辑实现,用于二进制算术解码过程中的查表运算。

CABAC的硬件化分析
    本设计的目标是使整个H.264解码器的芯片能够对高清图像(1920×1088)进行实时解码。假设芯片工作在166MHz的频率下,图像播放速率是25fps,则平均解一个宏块的时间是823个时钟周期。考虑到H.264熵解码部分的运算总体上是串行解码,并行性较差,因此CABAC硬件加速器需要在3个时钟周期内完成1bit数据的解码。假设视频图像的压缩比为20:1,YUV为4:2:0取样,因为取样值是8bit,则每个像素为8bit×1.5=12bit。CABAC的解码率约为1:1.2,所以CABAC要解的码流是(1920×1088×12bit/20)×1.2,约1.43Mb。芯片工作频率是166MHz,每3个时钟解出1bit,则解码数据率约为55.3Mbps,本设计在解码时CABAC占用了90%,约为49.8Mbps。因此解码速度为49.8/1.43,约34.7fps,即1s可以解34.7帧,则解1帧(1920×1088)大约需要28.8ms。

    为了达到该目标,CABAC硬件加速器的设计必须对核心的二进制算术解码进行优化。根据归一化算法的特点,即循环的次数可由输入的codIRange、codIOffset和查表得到的codIRangeLPS事先判断出来,因此可以合并二进制化和归一化这两个步骤,使其在1个时钟周期内完成。由于篇幅有限,下面仅以三种模式中的规则解码为例,说明二进制算术解码和归一化的硬件化,旁路解码和结束解码可参考H.264协议。

    规则解码的二进制算术解码和归一化过程主要包括比较、减法、查表、移位操作。在H.264中,为了减少计算的复杂度,CABAC首先建立一个64×4的二维表格rangeTabLPS[64][4],存放预先计算好的乘法结果。表格的入口参数是pStateIdx和qCodIRangeIdx,其中qCodIRangeIdx由变量codIRange量化而来,量化方法是(codIRange>>6)&3。其Verilog HDL实现如下:
assign qCodIRangeIdx= (codIRange>>6)&2'b11;
always@(pStateIdx or qCodIRangeIdx)
begin 
case{pStateIdx, qCodIRangeIdx}
           0:  codIRangeLPS=0;   
             …  …     
           255:codIRangeLPS=63;
       endcase
end

    建立了概率模型和乘法模型后,在递进计算过程中CABAC必须保存一下变量:当前区间的下限codIOffset、当前区间的大小codIRange、当前MPS(大概率符号)字符valMPS、LPS(小概率符号)的概率编号pStateIdx。transIdxLPS[pStateIdx]和transIdxMPS[pStateIdx]是两个深度为64项的表格,其中pStateIdx的取值为0~63。接下来是归一化判断,当codIRange小于0x0100时,需进行归一化。这样就能在1个时钟周期内完成二进制化和归一化两个步骤,其Verilog HDL实现如下:
always@(posedge clk or negedge rst)
if( !rst)
     ... ...
  else
    begin 
        if(codIOffset>= codIRange-codIRangeLPS)
            begin
            binVal<=~valMPS;
        codIOffset<=codIOffset-(codIRange-codIRangeLPS);
        codIRange<=codIRangeLPS;
 if(pStateIdx==0) 
  valMPS<=1-valMPS;            pStateIdx<=transIdxLPS[pStateIdx];          
             end      
         else
             begin
               binVal<=valMPS;
 pStateIdx<=transIdxMPS[pStateIdx];         
             end 
         while(codIRange<0x100)   //注:此语句不可综合
           begin
              codIRange<= (codIRange-codIRangeLPS)<<1;
  codIOffset<=(codIOffset<<1) |read_bits(1);                    
           end    
    end 

CABAC的加速策略
状态机的设计
    二进制算术解码的状态机是本设计的核心,该部分效率的高低将直接影响到CABAC硬件加速器的解码速度。在CABAC模块没有被启动时,状态机将一直停留在初始状态,当一个新片开始时,初始化解码引擎;当收到CPU发出的解码请求时,首先进入预解码状态,读取上下文模型变量,然后在下一个时钟进入二进制算术解码状态,完成1bit数据的解码。在CABAC解码过程中,系统会根据句法元素的种类和当前数据的位置选择解码模式。

流水线的设计
    CABAC对1bit数据进行解码的过程可分为两个步骤:读取上下文模型变量、解码并更新上下文模型变量。本设计采用两级流水线结构,在对当前数据进行解码的同时,可读取下个数据的上下文模型变量,因此加快了解码速度。

码流读取的双缓冲设计
    在进行解码的时候,为了提高传输效率,采用双缓冲的形式。在总线给其中一个缓冲传输数据的时候,解码器可从另外一个缓冲里读取数据进行解码,从而使传输和解码同时进行,有效提高了传输效率。

设计结果与性能仿真
    在设计完成后,利用JVT提供的标准测试码流进行测试,通过了仿真验证。结果显示,本设计平均每2个时钟周期可完成1bit数据的解码。

    在SMIC 0.18mm CMOS工艺标准单元库的基础上进行DC(Design Compile)综合,硬件加速器的面积为0.38mm2(不包括片外SRAM所占用的面积),工作频率可达166MHz,达到了预期要求。

    为了显示硬件加速器的优势,选择参考软件JM7.4的函数biari_decode_symbol完成二进制算术解码和归一化。Visual C++6.0编译器的编译结果显示该函数使用了109个汇编指令,因此用软件完成1bit数据的解码至少需要100个时钟周期。而利用本设计完成同样的步骤时,最多只需3个时钟周期,很好地达到了加速器的作用。
  
结语
    由于采用了一系列的优化方案,同时,在设计时考虑了解码速度及解码系统中各个模块之间的协调,本文实现了熵解码CABAC的快速解码,能完成高清码流的实时解码任务,在视频解码芯片中有很好的应用价值。

参考文献
1  Detlev Marpe,Heiko Schwarz,Thomas Wiegand. Context-Based Adaptive Binary Arithmetic Coding in the H.264/AVC Video Compression Standard[J]. IEEE Transactions on Circuit and Systems for Video Technology,2003,13(7):620-636
2  毕厚杰. 新一代视频压缩编码标准-H.264/AVC[M]. 北京:人民邮电出版社,2005
3  JVT-G050, Draft ITU-T Recommendation H.264 and Draft ISO/IEC 14496-10 AVC,2005[S]

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

成都2022年10月19日 /美通社/ -- 近期,平安养老险积极筹备个人养老金的产品设计和系统开发工作,发展多样化的养老金融产品,推动商业养老保险、个人养老金、专属商业养老保险等产品供给。 搭养老政策东风 ...

关键字: 温度 BSP 东风 大众

广东佛山2022年10月19日 /美通社/ -- 空间是人居生活的基础单元,承载着生存与活动的最基本功能。而对于理想空间的解构意义却在物理性容器之外,体现出人们对于空间和生活深层关系的思考,同时也塑造着人与空间的新型连接...

关键字: 温度 BSP 智能化 进程

上海2022年10月19日 /美通社/ -- 10月17日晚间,安集科技披露业绩预告。今年前三季度,公司预计实现营业收入7.54亿元至8.33亿元,同比增长60.24%至77.03%;归母净利润预计为1.73亿...

关键字: 电子 安集科技 BSP EPS

北京2022年10月19日 /美通社/ -- 10月18日,北京市经济和信息化局发布2022年度第一批北京市市级企业技术中心创建名单的通知,诺诚健华正式获得"北京市企业技术中心"认定。 北京市企业技...

关键字: BSP ARMA COM 代码

北京2022年10月18日 /美通社/ -- 10月14日,国际数据公司(IDC)发布《2022Q2中国软件定义存储及超融合市场研究报告》,报告显示:2022年上半年浪潮超融合销售额同比增长59.4%,近5倍于...

关键字: IDC BSP 数字化 数据中心

上海2022年10月18日 /美通社/ -- 2022年9月5日,是首都银行集团成立60周年的纪念日。趁着首都银行集团成立60周年与首都银行(中国)在华深耕经营12年的“大日子”,围绕作为外资金融机构对在华战略的构想和业...

关键字: 数字化 BSP 供应链 控制

东京2022年10月18日  /美通社/ -- NIPPON EXPRESS HOLDINGS株式会社(NIPPON EXPRESS HOLDINGS, INC.)旗下集团公司上海通运国际物流有限公司(Nipp...

关键字: 温控 精密仪器 半导体制造 BSP

广州2022年10月18日 /美通社/ -- 10月15日,第 132 届中国进出口商品交易会("广交会")于"云端"开幕。本届广交会上高新技术企业云集,展出的智能产品超过140,...

关键字: 中国智造 BSP 手机 CAN

要问机器人公司哪家强,波士顿动力绝对是其中的佼佼者。近来年该公司在机器人研发方面获得的一些成果令人印象深刻,比如其开发的机器人会后空翻,自主爬楼梯等。这不,波士顿动力又发布了其机器人组团跳男团舞的新视频,表演的机器人包括...

关键字: 机器人 BSP 工业机器人 现代汽车

南京2022年10月17日 /美通社/ -- 日前《2022第三届中国高端家电品牌G50峰会》于浙江宁波落幕,来自两百余名行业大咖、专家学者共同探讨了在形势依然严峻的当下,如何以科技创新、高端化转型等手段,帮助...

关键字: LINK AI BSP 智能家电

数字电源

15504 篇文章

关注

发布文章

编辑精选

技术子站

关闭