当前位置:首页 > 通信技术 > 通信技术
[导读]Tensilica日前宣布以其面向密集计算数据平面和DSP(数据信号处理器)如成像、视频、网络和有线/无线基带通信的处理器IP巩固了其在IP内核领域的领导者地位,任何需要庞大数据处理的应用都将极大都受益于这些突破性功能

Tensilica日前宣布以其面向密集计算数据平面和DSP(数据信号处理器)如成像、视频、网络和有线/无线基带通信的处理器IP巩固了其在IP内核领域的领导者地位,任何需要庞大数据处理的应用都将极大都受益于这些突破性功能――通过内建Tensilica面向SOC的Xtensa LX4数据平面处理器(DPU)可以将这些应用数据带宽提高4倍!

新的Xtensa LX4 DPU支持更高的本地数据存储位宽,最高到每周期1024比特,支持更宽的128位VLIW(超长指令字)指令,从而提高指令并行度。新增的高速缓存预取功能,可以在片外存储器延时很高的情况下帮助提升系统性能,Tensilica已经将这些技术应用到最新发布的用于LTE通信的ConnX BBE64 DSP上。

“Tensilica DPU的优势在于同时具备控制和信号处理能力,与一个标准的RISC或者DSP内核相比,可以将性能优化提升10倍到100倍!” Tensilica 营销与业务拓展副总裁Steve Roddy指出,“现在,有了Xtensa LX4后, Tensilica可以提供的IP内核包括从微型可编程DPU(采用28nm工艺在0.01mm2提供1GigaMAC DSP能力)到业界最 高性能的可授权DSP内核ConnX BBE 64-128,它每秒处理能力超过100 GigaMAC!”

针对高带宽应用有更宽的数据存取能力

与Tensilica的Xtensa LX3 DPU相比, Xtensa LX4 DPU有4倍本地存储器带宽,每个周期最多可以完成2个512位的存取操作,设计师现在可以轻易实现超宽SIMD(单指令多数据)DSP,它可以将更多数据同时送给MAC(乘加运算),使每个时钟周期性能大大提升,这使得Xtensa LX4 DPU特别适合于有线和无线基带处理、视频前处理和后处理、图像信号处理和各种网络包处理应用。

除了上述本地存储器带宽的增强,Tensilica 已有的可定制本地端口和队列可以提供近乎无限的点对点数据和控制信号带宽。Tensilica现在既可以提供在Xtensa DPU和其他系统模块如RTL 模块之间建立内部互连的端口和队列,也可以提供新的超高带宽本地存储器接口。

提供更宽的指令增强并行处理能力

有了Xtensa LX4, Tensilica可以让其FLIX(灵活长度指令扩展)指令的指令长度翻番,从64位扩展到128位,这使得每个时钟周期可以完成的操作数量翻番,FLIX指令可以和Xtensa基本指令集无缝混合,所以在用到FLIX的时候不用很麻烦地去切换模式。

Xtensa LX4 DPU的FLIX指令与传统的VLIW DSP相比,可以在提供超高性能的同时减小代码体积,Tensilica的Xtensa C/C++编译器可以从源代码中推断出并行性,并自动将多个不同操作并行化为一条FLIX指令。一个带有FLIX指令的Xtensa LX4 DPU能以很低的时钟频率运行并行操作,它提供的性能可以与时钟频率更高体积更大的非VLIW 内核相媲美,而在完成相同任务时它的功耗更低!

预存取减少周期数

新的数据预取操作因在数据使用前就提前取到了数据,所以可以减少高延迟系统中执行周期的数量,这样一来,当应用代码需要的时候,数据已经准备好了,在DPU必须等待数据时,可以减少时钟周期的浪费。当数据流是来自相邻存储地址的时候这样的好处就更突出,相比增加一个独立的DMA(直接存储器访问)引擎来说,这是一种更为简易的优化存储器访问的方法。它不需要额外的软件编程和应用代码调整。

成功的关键:自动化

利用Tensilica的开发工具,不仅可以自动生成DPU硬件,还可以生成相匹配的复杂软件工具链,因为所有的Xtensa处理器都包括了一套相同的基本指令集,所以基于这套基本指令集的的第三方应用软件可以运行在所有Xtensa处理器上,甚至是深度定制后的Xtensa DPU。

可定制Xtensa DPU与主流操作系统、DEBUG和ICE(在线仿真器)方案都兼容,每个XtensaDPU都有自动生成的完整的软件工具链,包括一个基于Eclipse框架的高级集成开发环境,一个世界级编译器,一个周期精确且兼容SystemC的指令集仿真器以及完整的工业标准GNU工具链。

随同发布的还有Tensilica的矢量化辅助工具,这是一个首创的工具,它给开发者提供建议来改善他们运行于SIMD(单指令多数据)DSP上的C代码的编程风格,这个矢量化辅助工具可以指出哪些代码妨碍了编译器进行矢量化,所以软件可发者能改善C源代码,从而发挥DPU并行执行的优势。

供货和性能

Tensilica 现就可以提供Xtensa LX4 DPU IP,在45nm工艺下基本型Xtensa LX4 DPU时钟频率可以超过1 GHz,而大小只有0.044 mm2.。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

2024年5月7日 – 专注于引入新品的全球半导体和电子元器件授权代理商贸泽电子 (Mouser Electronics) 即日起开售Microchip Technology的PIC32CZ CA MCU。PIC32CZ...

关键字: MCU 工业网关 处理器

业界应如何看待边缘人工智能?ST授权合作伙伴 MathWorks 公司的合作伙伴团队与ST 共同讨论了对边缘机器学习的看法,并与 STM32 社区分享了他们的设计经验。

关键字: AI 机器学习 处理器

Remi Pi采用瑞萨RZ/G2L作为核心处理器,该处理器搭载双核Cortex-A55@1.2GHz+Cortex-M33@200MHz处理器,其内部集成高性能3D加速引擎Mail-G31 GPU(500MHz)和视频处...

关键字: 瑞米派 处理器

业内消息,近日高通公司宣布推出针对桌面平台的全新骁龙 X Plus 处理器。

关键字: 高通 骁龙 X Plus 处理器

近日,米尔电子推出米尔基于NXP i.MX 93系列产品-MYC-LMX9X核心板及开发板。NXP i.MX 9系列在i.MX 6和i.MX 8系列产品市场验证的基础上,继承了前代产品的优点的同时,进一步提升了性能、资源...

关键字: 核心板 开发板 处理器

2024年4月18日,重庆——今日,英特尔AI教育峰会暨OPS2.0全球发布活动在第83届中国教育装备展示会期间顺利举行。峰会现场,英特尔携手视源股份、德晟达等合作伙伴正式发布新一代开放式可插拔标准——OPS 2.0,并...

关键字: OPS 2.0 显卡 处理器

全新Balletto™系列无线MCU基于Alif Semiconductor先进的MCU架构,该架构具有DSP加速和专用NPU,可快速且低功耗地执行AI/ML工作负载

关键字: 处理器 微控制器 AI

新型LPDDR5X是未来端侧人工智能的理想解决方案,预计将在个人电脑、加速器、服务器和汽车中得到更广泛的应用

关键字: 三星 人工智能 LPDDR5 处理器

Supermicro广泛多元的系统产品组合提供高度灵活性,可满足现今针对工作负载优化且具液冷设计的数据中心需求,并集成了新型高效核(Efficient-core)与性能核(Performance-core)处理器,这些处...

关键字: Intel MICRO SUPER 处理器
关闭
关闭