当前位置:首页 > dpu
  • 英伟达DPU,在数据中心领域对英特尔的挑战

    英伟达DPU,在数据中心领域对英特尔的挑战

    最近几年,“颠覆”、“极致”、“革命性”等概念很容易的出现在科技厂商的发布会新闻中。而iPhone12的发布现场,蒂姆库克就用上了“新纪元”的字眼,标志着iPhone正式地步入了5G时代新纪元。 但国内消费者对5G已经是见怪不怪了,苹果自嗨的划时代产品因为没有达到市场的预期,当日股价就跌去3800亿个小目标,后面就要靠销量来证明苹果自己有没有跨入“新纪元”了。 相比较于关注度高的消费电子领域,本文要把重点放在大多数人不太熟悉的数据中心产业,及其更上游的数据中心计算芯片上面。因为我们看到随着云计算的大规模普及和AI计算的指数级增长,数据中心被提到前所未有的重要位置。 最近在参加一个有关数字通信产业的论坛上,听到一位中国信通院的专家的观点是:数据中心,将成为和5G技术并肩,下一个数字技术的制高点。类似的观点,我们也在英伟达线上2020年GPU技术大会,从黄仁勋那里听到:数据中心已成为全新的计算单元。 黄仁勋之所以有这样的底气,就在于这次发布会上推出了一款全新处理器DPU,以及围绕该处理器的软件生态架构DOCA。据英伟达的介绍,DPU可以和CPU、GPU相结合,构成完全可编程的单一AI计算单元,实现前所未有的安全性和算力支持。 那么,DPU能否真正承担起与CPU、GPU一样的计算重要性,实现数据中心的一次巨大革新?其创新点到底在哪里?这些仍然是我们要去回顾和考察的问题。 一、英伟达DPU的过“芯”之处 从英伟达在GTC的介绍上来说,DPU(Data Processing Unit)处理器,其实是一种SoC芯片,其中集成了ARM处理器核、VLIW矢量计算引擎和智能网卡的功能,主要应用在分布式存储、网络计算和网络安全领域。 DPU的主要作用就在于替代了数据中心原本用来处理分布式存储和网络通信的CPU处理器资源。在DPU之前,智能网卡(SmartNIC)正在网络安全和网络互连协议方面逐渐取代CPU。而现在DPU的出现,相当于是智能网卡的升级替代版本,一方面增强了智能网卡对网络安全和网络协议的处理能力,一方面又整合和加强了分布式存储的处理能力,从而在这两个领域更好地替代CPU,从而释放CPU的算力给到其他更多应用。 英伟达在DPU上的技术突破,来自于去年收购以色列芯片制造公司Mellanox之后,在这家公司的硬件基础上开发出BlueFeild系列的两款DPU——英伟达BlueField-2 DPU与BlueField-2X DPU。 据介绍,BlueField-2 DPU具有英伟达Mellanox Connext-6 SmartNIC的所有特点,与8个64位的A72ARM处理器内核一起,实现可完全编程,并能提供每秒200千兆比特的数据传输速率,从而加速关键数据中心的安全、网络和存储任务。 最核心的一点是单个BlueField-2 DPU可以提供相当于消耗125个CPU内核所提供的数据中心服务,从而有效释放CPU内核的算力资源。 而BlueField-2X DPU则拥有包括BlueField-2 DPU的所有关键特性,其特性能够通过英伟达安培GPU的AI功能得以增强。而在英伟达的路线图里,未来的Bluefield-4 将会引入CUDA 和 NVIDIA AI,极大加快网络中计算机视觉应用处理的速度。 另外一个值得注意的是英伟达提出配合DPU处理器的软件开发工具包——DOCA(Data-Center-Infrastructure-On-A-Chip Architecture)。英伟达的专家将DOCA类比为数据中心服务器领域的CUDA,其意图在于帮助开发人员在DPU加速的数据中心基础设施上构建相应的应用程序,从而丰富DPU的应用开发生态。 从以上介绍我们看出英伟达的两个野心,一个是DPU试图再一次复制“GPU替代显示加速卡成为通用显示芯片的路径”,再一个是DOCA试图再一次复制“CUDA在GPU通用化过程中所起到的开创生态之功”。 如果和不久前英伟达收购ARM的消息结合起来,我们看到英伟达的一个重要考量,就是以ARM架构的CPU为核心,从服务器的应用加速扩展到服务器的全部应用场景,从而实现在数据中心服务器领域的更大突破,目标自然是剑指英特尔CPU为代表的X86服务器生态。 而在考察DPU挑战CPU霸主地位的可能性之前,我们可以简单来了解下英伟达在数据中心的布局。 二、英伟达的数据中心“野心” 在经历过游戏显卡业务的增速放缓,以及加密货币退潮后带来的显著业绩下滑的影响之后,几经波折的英伟达终于坚定地将未来押注在了AI计算和数据中心的产业布局上面。 2017年,英伟达的数据中心业务季度营收首次超过了5亿美元,同比增长了109%,这使得黄仁勋在一次大会上大力肯定了数据中心业务的价值。 英伟达早在2008年,最初就是通过最早的Tesla GPU加速器和初级的CUDA编程环境来为数据中心进行GPU计算,试图将更多的并行计算从CPU卸载到GPU上。这成为英伟达GPU之后进化之路的一条长期策略。 此后随着AI计算需求在数据中心当中的爆发式增长,AI硬件正成为越来越多数据中心扩容建设的关键所在。当超强AI算力成为数据中心的刚需,英伟达GPU凭借强大的并行计算和浮点能力,突破了深度学习的算力瓶颈,成为AI硬件的首选。这一契机才使得英伟达能够在数据中心的硬件版图上站稳脚跟,当然,英伟达的野心远不止于此。 英伟达最主要的布局就在于2019年3月,花费69亿美元收购了以色列芯片公司Mellanox,而这家公司所擅长的正是为服务器、存储和超融合基础设施提供包括以太网交换机、芯片和InfiniBand智能互连解决方案在内的大量的数据中心产品。而英伟达的GPU与Mellanox的互连技术结合,可以使得数据中心工作负载将在整个计算、网络和存储堆栈中得以优化,并能实现更高的性能、更高的利用率和更低的运营成本。 当时,黄仁勋把Mellanox的技术看作是公司的“X因素”,也就是把数据中心改造成一个可以解决高性能计算要求的大型处理器架构。而如今我们看到DPU的出现,已经是具有这一架构雏形的一种尝试了。 今年,英伟达花费400亿美金的天价从软银手中收购半导体设计公司ARM,其意图之一就是要把ARM架构的CPU设计应用到英伟达所要搭建的未来计算模式中,主要布局的领域就有超算、自动驾驶和边缘计算模式。其中,基于英伟达GPU的AI运算平台与ARM的生态系统结合,将不仅能够强化英伟达高性能运算(HPC)技术能力,又可以带动英伟达数据中心业务营收持续创高。 可以说,英伟达在数据中心领域的成功与否,都与能否实现数据中心的规模化运算有关,从发展自研的DGX系列服务器到整合Mellanox的技术,再到借助ARM生态发展全新的数据中心计算架构,都是为转型数据中心业务所作的准备。 当然,想要实现这一目标,还要看下英特尔是否答应了。 三、英伟达挑战英特尔,距离还有多远 目前来说,数据中心当中,95%左右的GPU仍然还是连接到x86 的CPU之上,英伟达如果单纯只是做GPU的增量,仍然无法撼动英特尔在数据中心服务器的霸主地位。现在,英伟达显然已经不满足于抓住增量市场,而是更希望能切入数据中心的存量市场,即设法用自己的芯片产品去取代英特尔(以及AMD)主导的X86 CPU。 自从英伟达开始收购ARM,外界能够看到英伟达已经多次显示出其试图利用ARM处理器进一步占领数据中心服务器市场的决心,而集成了ARM核心的DPU将成为其打入数据中心存量市场取代X86 CPU的第一个切入点。 英伟达推出DPU来切入这个市场,而非直接用ARM核心CPU来与X86 CPU直接竞争,其实是一种比较讨巧的做法,相当于用集成了网络、存储、安全等任务的下一代CPU产品来达到逐渐替换CPU的目的,即使其中所内涵的ARM CPU性能无法对标同一代的X86 CPU,但是整体机由于在DPU SoC上集成了专用的处理加速模块,因此总体性能一定是超过X86 CPU的。这种有点“田忌赛马”味道的策略,很可能成为英伟达开始替代低端X86 CPU的开始。 但是英伟达想要在中高端处理器市场来挑战英特尔,还要面临一系列的困难。 首先,正是英伟达的GPU与X86 CPU已经形成一种非常稳定的强互补关系。英伟达想要采用基于ARM架构的处理器做高端服务器,还需要ARM处理器性能出现大幅的提升,而现在,这一进程并不明朗。 再一个是英特尔早已为应对英伟达的种种挑战进行了相应的回应和布局。早在2017年,英特尔就宣布要开发全栈的GPU产品组合,而预计明年英特尔的首批GPU将在使用GPU的各个市场上发布。 为阻击英伟达在AI计算和自动驾驶领域的扩张,英特尔也先后收购了收购了Nervana和Movidius作为边缘AI计算的布局,收购了Mobileye作为自动驾驶的布局。并且,英特尔还在2018年宣布,将开发一个用于异构计算的全栈开放软件生态系统OpenAPI计划,来应对CUDA生态的扩张。也就是说,英特尔不仅在英伟达的后院搞事情,同时也在建立自身的X86服务器的生态系统。 数据中心业务对于英特尔来说,也正在成为其最核心的业务组成。2019年Q4英特尔的数据中心业务超越PC业务,成为其收入的主要来源;而在今年,英特尔对其技术组织和执行团队的重组,也被外界视为全面转型数据中心业务的开始。 可以想见在未来的数据中心处理器业务上,英伟达将迎来英特尔最为强劲的保卫战和反击战,而广大的服务器集成商或将成为这场角力赛的受益方。 螳螂捕蝉,黄雀在后,英伟达还要面对ADM这一新对手的追赶。不久前ADM曝出要花费300亿美金收购赛灵思,就被看作是叫板英特尔,阻击英伟达的双战略。 除此之外,英伟达还要在数据中心处理器业务中面临来自客户自研芯片的挑战。云服务商本身也不愿意完全将自身的计算核心完全交给英伟达,无论是AWS、还是谷歌、阿里巴巴、华为,都已经在布局自己的云端处理器。 不管怎么说,数据中心已经成为英特尔、英伟达、AMD这些老牌芯片巨头未来争夺的主战场,而英伟达如何能够在X86的如日中天和云计算客户的自研路线中,找到一个切入到中高端服务器处理器的关键点,刚刚发布的DPU也只能算作一个初步的尝试。 未来数据中心的博弈,将围绕AI、超算等所有领域全面展开,英伟达数据中心在强敌夹击中必定任重而道远。

    时间:2020-10-18 关键词: 英伟达 数据中心 dpu

  • 米尔MYD-CZU3EG搭载Xilinx DPU,具备强大AI计算能力

    米尔MYD-CZU3EG搭载Xilinx DPU,具备强大AI计算能力

    9月25日,米尔官方发布,其MYD-CZU3EG开发板在原产品的基础上搭载了Xilinx深度学习处理单元DPU,该部分新功能的增加可以极大的提升产品数据处理与运行效率,为AI应用落地提供完整支撑,帮助用户实现更为快速的产品开发和迭代。 DPU人工智能引擎 Xilinx®深度学习处理器单元(DPU)是专用于卷积神经的可配置计算引擎网络。引擎中使用的并行度是设计参数,可以根据需要选择目标设备和应用程序。它包含一组高度优化的指令,并支持大多数卷积神经网络,例如VGG,ResNet,GoogLeNet,YOLO,SSD,MobileNet,FPN等。MYD-CZU3EG搭载DPU AI引擎,可提供强大AI计算能力,结合DNNDK工具链,为AI应用落地提供完整支撑。 本套软件搭载Linux系统,开发者可以基于Linux系统进行应用程序进行开发。 DPU应用领域 搭载DPU后,MYD-CZU3EG可用于ADAS,智能安防,工业质检,智能零售等诸多AI应用开发。

    时间:2020-09-27 关键词: AI 米尔 dpu

  • Arm首推主流市场NPU/GPU/DPU IP,将为中国市场带来什么?

    Arm首推主流市场NPU/GPU/DPU IP,将为中国市场带来什么?

    近年来,几乎进入了“全员NPU的大数据时代”,华为、海思、三星、阿里、寒武纪……NPU作为手机、云端重要的组成部分,迎来了大爆发。但目前来说,整体的硬件还没有一个统一的硬件标准,也鲜有完整生态支持,所以市场需要的是一套软件硬件相结合的,能够发挥生态系统的力量。   主流市场NPU、GPU、DPU三箭齐发   10月23日,Arm在2019年度技术论坛上发布了三款面向主流市场的IP,包括全新的NPU产品,Ethos-N57和N37;首款基于Valhall架构的GPU,Mali-G57 GPU;目前为止单位面积效率最高的显示处理器DPU,Mali-D37。 图1:Arm发布面向主流市场的NPU、GPU、DPU新IP 据Arm市场营销副总裁Ian Smythe介绍,该产品的设计理念主要为主流设备带来最极致的体验,针对不同市场,希望根据客户所需处理能力,提供有效的IP,既能够合理控制成本,又能达到客户期待的性能。正如上文所述,Arm的目标就是发挥生态系统的力量,将软硬件结合来提升使用体验。 据了解,此前Arm曾发布过高端市场所用IP,此次发布主要针对主流市场,通过Arm的标准化和强大的生态系统,使市场可获得更加极致的体验。值得一提的是,这几款产品均可基于最新开源的通用软件Arm NN上开发。   具有智能数据管理的Ethos-N57/N53   Arm ML事业群商业与营销副总裁Dennis Laudick介绍,此前曾发布过名为Arm ML处理器的NPU IP,此次扩充主流市场产品IP后,现称之为Ethos系列产品,而原Arm ML处理器现名为Ethos-N77。当然,主流市场推出的IP则分别为Ethos-N57和Ethos-N37。 他表示,本次发布的Arm Ethos-N57与N37与N77拥有相同的新架构,具体来讲Ethos-N77主要针对最高端、性能要求最高的市场;Ethos-N57针对主流市场,这款产品非常完美地实现了性能、成本以及功耗的均衡;Ethos-N37则针对低端市场,也就是对成本极端敏感的市场。 据Dennis Laudick介绍,Arm已发觉市场对NPU的多样化需求,并且值得一提的是,市场对性能以及带宽的需求非常一致, Ethos-N37、N57、N77是针对性能需求和市场的差异化产品。 图2:Ethos-N37、N57、N77可针对多样化市场需求 据了解,Arm的NPU产品自Arm ML处理器设计之初,重点关注的是数据而非处理,因此在设计中更多地注入了智能数据管理的功能和理念,包括数据敏感型压缩技术、高密度剪枝和稀疏功能。 图3:Ethos-N37、N57、N77拥有智能数据管理功能 需要强调的是,本次Arm推出的NPU产品为通用型产品,旨在硬件标准化。众所周知华为、海思、三星、阿里、寒武纪均拥有自己的NPU产品,不过目前市面很多机器学习(ML)工作负载使用的是Arm的CPU,本次发布的NPU可以将Arm的CPU ML性能进一步提升,同时提供更好的软件和工具支持。   相比前代提升30%的Mali-G57   Ian Smythe对现场记者介绍表示,Mali-G57是针对主流市场的基于Valhall架构的GPU。值得一提的是,与前代产品在相似条件下测试,Mali-G57性能是Mali-G52的1.3倍。 在性能方面,Mali-G57能效比提升了30%,性能密度也提升了30%,机器学习(ML)性能提升了60%。换言之,用户可以获得更好的图形表现力和画质,有效支持不断增长的图形和机器学习(ML)复杂性。 他表示,Arm Valhall架构设计之初的宗旨便是把并行最小线程数量做得越来越大,使架构越来越宽;另外,尽量简化,让编译过程越来越友好。  图4:Valhall的设计理念   小型化低功耗的Mali-D37   Ian Smythe介绍表示,Arm的DPU产品要追溯到2013年,在今年同样发布过针对高端使用场景,特别是VR中应用的Mali-D77。而此次发布的Mali-D37是首款面向主流和入门级市场的DPU产品。 图5:Arm在DPU方面的历史 Mali-D37的最重要的特点是支持全高清(Full HD)与2K分辨率,16纳米制程的面积小于1 mm²。另外,该款产品通过减少GPU核心显示工作和内存管理功能,功耗最高可降低30%。   开源架构Arm NN与生态建立完整工具链   Ian Smythe强调,除了处理器相关IP的研发以外,Arm非常注重软件和生态系统。事实上,Arm拥有如此众多的高性能产品,在强调软硬结合的现今,Arm的开源架构Arm NN是发挥硬件性能的关键性钥匙。 Arm NN是一个偏向底层的机构,可与高层的机器学习(ML)或人工智能(AI)框架连接,除此之外,也可连接标准引擎,实现Arm IP与第三方可配置的IP连接。利用Arm NN可以简化开发环境,加快ML的部署。 值得一提的是,Arm NN的强势在于全面化和标准化,在标准化前提下,开发人员可以进行定制开发。当然,Arm NN是一个开放开源的平台,是支持其他第三方处理器的,不过利用众所周知Arm的异构计算能力非常强,再结合其提供的软件和工具可以发挥预期的表现力。 图6:开源软件Arm NN加快ML的部署 值得注意的是,Arm还宣布与Unity合作。众所周知,Unity是著名的图形游戏引擎,Arm一直以来拥有非常优良性能的CPU/GPU/NPU IP,根据Ian Smythe强调,Arm将进一步优化Unity引擎,用户将获得更好的性能体验。 图7:Arm将与Unity合作   将一如既往为中国市场提供服务   通过上文所述,我们明白了Arm首推的主流市场NPU/GPU/DPU IP可以为中国市场带来标准化的生态建设。除此之外,对于目前许多消费者非常关注的问题,在Arm 2019年度技术研讨会上,Arm中国董事长兼首席执行官吴雄昂表示Arm是唯一的非美国计算平台,经过法务部门调查,Arm v8与未来的Arm v9都是源于英国技术,ARM会一如既往持续对中国企业进行授权和服务支持。 据了解,目前在中国拥有超过200家合作伙伴,中国客户基于Arm技术的芯片累计出货量大于160亿,在国产SoC中,有95%是基于Arm处理器技术。吴雄昂强调,中国地区也是ARM的重要市场,占到该公司营收20%左右。 另外,此前Arm曾宣布推出PSA认证,高速发展的现如今,这套认证可以帮助中国本土独立的IoT生态体系的建设。值得一提的是,在中国有很多其他的品牌厂商、方案解决商有意愿参与PSA认证。 今年7月,Arm携手国联通旗下联通物联网有限责任公司宣布部署基于Arm Pelion设备管理平台与Mbed OS操作系统所打造的全新物联网平台。该物联网平台是一个开放、共享的平台,支持各种种类的跨平台设备,如果是基于Arm架构的设备,完全可以在Pelion的平台上来实现端到端的解决方案的开发;如果是基于非Arm架构的设备,Pelion平台也可以很好地管理并提供安全的保障。 可以说,Arm一直以来都非常重视中国市场,同时Arm从硬件的CPU/NPU/GPU/DPU IP,到软件的Arm NN、Pelion,再到PSA安全认证,可为中国市场的标准化生态建立提供非常有利的帮助。   【相关阅读】 1.《“安全疑云”成了IoT的绊脚石,警戒线下如何获取IoT的“安全通行证”?》 2.《跨过阻碍IoT的“大山”需要做加法:Arm+中国联通=破局》 

    时间:2019-10-26 关键词: ARM ip GPU 技术专访 npu dpu

  • 全新Arm IP为主流市场带来智能沉浸式体验

    全新Arm IP为主流市场带来智能沉浸式体验

    新闻重点: · Arm Ethos-N57与 Ethos-N37 NPUs:扩展机器学习(ML)处理器的产品范围,以便在主流设备上提供人工智能(AI)应用。 · Arm Mali-G57 GPU: 第一个基于Valhall架构的主流GPU,性能是前几代产品的1.3倍 · Arm Mali-D37 DPU:在最小的面积内提供丰富的显示功能组,以呈现全高清(Full HD)及2K分辨率。 北京 – 2019年10月23日—曾经只是高端设备专属的沉浸式体验,如AR、高保真游戏与以AI为基础的全新移动与家庭应用案例,目前也逐渐成为主流市场的需求。让开发人员能够使用针对日常设备优化的高性能AI与媒体IP解决方案,可以赋能新的AI驱动应用案例,提供包括语音识别与always-on在内的功能,告别这些功能由移动设备所独享的时代。 从游戏设备到数字电视(DTV),人工智能已经无所不在,但要促成这些响应式体验,端点必须具备更强的计算能力。例如,数字电视的智能体验,包括智能助理语音指令、节目实时翻译,以及人脸辨识以强化家长监护。 为了达成这些功能,Arm宣布将推出两款全新的主流ML处理器,以及最新的MaliGPU与DPU。这些IP的集成代表着Arm有能力根据需求调整产品,把高端的体验带入消费者高效的日常生活设备中。这套全新IP套件包括: · Ethos-N57 and Ethos-N37 NPUs:让AI应用成为可能并在ML的性能与成本、面积、带宽与电池寿命之间达成平衡。 · Mali-G57 GPU:第一款基于Valhall架构的主流GPU,可透过性能提升带来沉浸式体验 · Mali-D37 DPU:以最小的芯片面积达成丰富的显示功能,成为入门设备与小型显示屏幕最适合的显示处理器(DPU)。 Ethos-N57 与 Ethos-N37 NPUs:提供真正的异构计算 继Arm ML处理器(现称为Ethos-N77)发布后,Ethos NPU家族又添加Ethos-N57与Ethos-N37两位新成员。Arm Ethos产品组合旨在解决AI与ML复杂运算的挑战,以便为日常生活设备创造更为个性化与沉浸式的体验。由于消费者的设备越来越智能化,通过专属的ML处理器提供额外的AI性能与效率,是非常有必要的。全新的Ethos 对成本与电池寿命最为敏感的设计进行优化,NPU可以为日常生活设备带来优质的AI体验。 Ethos-N57与Ethos-N37的设计理念包括一些基本原则,例如: · 针对Int8与Int16数据类型的支持性进行优化 · 先进的数据管理技术,以减少数据的移动与相关的耗电 · 通过如创新的Winograd技术的落地,使性能比其他NPU提升超过200% 此外,Ethos-N57的功能还包括: · 旨在提供平衡的ML性能与功耗效率 · 针对每秒2兆次运算次数的性能范围进行优化 Ethos-N37的功能还包括: · 为了提供面积最小的ML推论处理器(小于1平方毫米)而设计 · 针对每秒1兆次运算次数的性能范围进行优化 更多有关Ethos-N57与Ethos-N37 NPU资料,请参阅Arm blog。 Mali-G57:为普罗大众带来智能与沉浸式体验的GPU Mali-G57,将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。这是移动市场划分中最大的一部分,而Arm最近与Unity的发布强调其基于Arm IP的片上系统(SoC),CPU, GPU进一步的性能优化的努力,它可以让开发人员有更多的时间创造出全新的沉浸式内容。 Mali-G57关键功能包括: · 与Mali-G52相比,各种内容都能达到1.3倍的性能密度 · 能效比提升30%,使电池寿命更长 · 针对虚拟现实(VR)提供注视点渲染支持,且设备ML性能提升60%,以便进行更复杂的XR实境应用 更多有关Mali-G57资料,请参阅Arm blog。 Mali-D37:Arm单位面积效率最高的处理器 Mali-D37是一个在最小的可能面积上包含丰富显示与性能的DPU。对于终端用户而言,这意味着当面积成为首要考虑,在例如入门级智能手机、平板电脑与分辨率在2k以内的小显示屏等成本较低的设备上,会有更佳的视觉效果与性能。 Mali-D37关键功能包括: · 单位面积效率极高,DPU在支持全高清(Full HD)与2K分辨率的组态下,16纳米制程的面积将小于1 mm2。 · 通过减少GPU核心显示工作以及包括MMU-600等内存管理功能,系统电力最高可节省30%。 · 从高阶的Mali-D71保留关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。 更多有关Mali-D57的资料,请参阅Arm blog。 这一套全新的IP,设计时就考虑到解决方案,并吻合Arm全面运算(Total Compute)的初衷,以确保它们确实是实际体验驱动,同时针对解决未来工作负荷的复杂运算挑战进行优化。这套全新的IP提供更高的单位面积效率且更为节能,同时能提升性能、降低成本及减少上市所需的时间,为移动设备带来更高保真游戏与媲美游戏主机的体验,为DTV带来计算复杂性,并为个人化沉浸式内容带来更高的ML性能,以及消费者期待的更快反应速度。

    时间:2019-10-23 关键词: ARM GPU npu dpu

  • ARM的DPU,有什么功能

    ARM的DPU,有什么功能

    安谋(Arm)日前推出了Mali-D71、CoreLink MMU-600及Assertive Display 5这三项全新的显示解决方案。 其中,Mali-D71是安谋推出的新概念方案,称为显示处理器(DPU),定位为绘图处理器(GPU)的协处理器。 该处理器可支持4K 120FPS画面输出,有助于降低GPU工作量,对运算任务吃重的VR应用而言,将是一大福音。 有鉴于VR带动市场对高阶行动装置屏幕的需求逐渐上升,4K以上分辨率以及更高的帧率,衍生出不少系统效能方面的难题。 对此,Mali-D71采用固定功能的硬件组件来执行迭加、旋转、高质量缩放以及其他图像处理,GPU完全不须参与这些作业,故可有效降低GPU工作量。 Arm多媒体处理器部区域市场经理吕建英表示,虽GPU运算能力很强大,但若将所有的处理工作都放在GPU上,势必会使其功耗过大,若能将固定的处理工作放到Mail显示处理器上,将可有效降低整体的系统功耗,并有助于效能上的提升。 事实上,这样的架构在业界已行之多年,但过去主要是由联发科等SoC厂商自行开发,例如在GPU后加上显示子系统(Display Sub-system)。 Arm此次推出的硅智财(IP)便是补上这个缺口,实现运算任务分配的优化。 除此之外,在数据传输的部分,由于VR 4K显示所需的带宽势必很大,因此Arm也提供自家的数据压缩格式,有助于缩小系统内存与纾解带宽压力。 吕建英进一步表示,由于GPU的能力主要是在绘图而非在显示数据的处理上,因此若没有DPU的协助,要处理VR装置的显示数据,是比较费力的。 具体而言,虽GPU也可进行压缩,但其处理方式与DPU大不相同。 相较于DPU可处理完多项任务后进行压缩与一次性输出,GPU则必须进行多次读取、处理与输出,不利于降低整体系统功耗。 此外,不同于前一代的Mali-DP650,Mali-D71将能在相同数据吞吐量的情况下,容许系统总线上4倍的延迟。 当要呈现4K分辨率的画面时,帧率至少必须达到120FPS,显示处理器使用系统总线的时间也必须优化。 当没有显示画面时,显示处理器必须预先撷取画素信息,才能在缓冲区一直保有充分的内容,并容忍更高的延迟。

    时间:2017-11-06 关键词: ARM GPU 技术前沿 dpu

  • Wave Computing要靠DPU站稳脚跟?

    Wave Computing要靠DPU站稳脚跟?

    成立7年的AI新创公司Wave Computing日前在Hot Chips大会上介绍了该公司研发的多核架构资料流处理器(Dataflow Processing Unit;DPU),号称在神经网路训练速度方面可达GPU加速器的1,000倍,该公司技术长Chris Nicol更认为资料流架构是训练高效能网路最有效的方式。 根据The Next Platform报导,Nicol在应用多核策略解决问题方面拥有丰富的经验,不仅曾协助澳洲最大的资讯及通讯科技研究机构NICTA,也成立了贝尔实验室共同研发最早的多处理器系统单晶片。 Nicol认为未来大规模的训练迟早会移出资料中心改在边缘执行,彰显DPU元件的潜在价值。 Wave Computing发表的DPU晶片具有16,000个处理元件、8,000个以上的运算单元以及独特的自定时机制,使用粗粒可重组式架构(coarse grained reconfigurable architecture),运行频率为6.7GHz,在没有资料通过时,DPU会进入休眠状态。 DPU可以看作是FPGA与多核处理器的混合体,能处理数千个元件的静态资料流图排程。 Nicol表示,目前异质运算的定义有个问题,也就是主控都在CPU上执行,加速器必须等待CPU下达指令,而Wave Computing希望彻底改变这样的架构。 Nicol指出,新的加速器架构(尤其是GPU)在载入核心(kernel)以及使用微控制器在执行期移出与移入程式时都会产生延迟问题,而一个去除CPU的架构可以在卸载模式中得到更多性能效益。 Nicole指出,深度学习实际就是在深度学习软体上编程的资料流图,在类似Wave这种可以在执行期组成资料流图的处理器上运行,而这样的工作流程产生了用来训练网路的资料流图。举例来说,系统会在执行期从TensorFlow取得资料流图,然后直接将它转换成不需要CPU就可执行的资料流图,然后再映成到Wave的资料流晶片上。 Nicol表示,这是一个粗粒可重构阵列,有点类似空间运算(spatial computing),当程式编译为多处理器核心时,仍然需要将该程式分区,这也是多核晶片的问题所在,而开放式运算语言(OpenCL)并无法提供解决之道。 Wave有自己的空间编译器可以排程、规定路线、将软体映成在其紧密耦合的互连处理器架构上,这样会比使用暂存器速度更快。 尽管这些新架构非常令人注目,但GPU的软体生态系统在机器学习工作负载已十分健全,超大规模资料中心是否愿意容忍风险,导入一个完全不同的训练模式,还是由他们自己决定。

    时间:2017-09-13 关键词: GPU AI 行业资讯 dpu

  • 富士康公布AI领域研究成果,DLU微处理器技术完善

    据报导,富士通自2015年以来便投入DLU芯片开发工作,不过此前富士通很少对外透露这款微处理器的设计细节,直到2017年6月举办的“ISC 2017”大会上,富士通AI基盘事业本部(AI Platform Division)资深主任丸山拓巳(Takumi Maruyama)才对外透露该公司投入AI及高效能运算(HPC)领域的发展成果,首度较深入介绍DLU微处理器运作细节。目前丸山便正从事于DLU芯片开发专案。 丸山指出,DLU微处理器与其他多款专为深度学习(DL)所打造的处理器相同的是,均高度仰赖于低精密度运算在神经网络处理上优化效能及能源效率,值得注意的是,DLU微处理器支援FP32、FP16、INT16以及INT8数据类型。在最高等级上,DLU微处理器是由若干“深度学习处理单元”(Deep Learning Processing Units;DPU)所组成,透过一个高效能构造进行互相连结,或可将这些DPUs视为是深度学习的核心。 个别的主核心管理在DPU上的执行,并负责在DPU与芯片内建存储器控制器之间协调存储器近用任务。 值得注意的是,每个DPU均是由16个深度学习处理元素(DPE)所组成,这也是实际数值运算进行之处;每个DPE则是由8个SIMD执行单位连同一个非常大型的注册档(Register File; RF)所组成,此RF完全受到软件的控制。 另外,DLU封装将包含一定数量的第二代高频宽存储器(HBM2),这款存储器能够高速提供处理器所需数据,该DLU封装也将包含一个用于透过Tofu互联技术与其他DLU微处理器相连结的介面,富士通预计2018年度将推出DLU微处理器,且将先以协同处理器形式问世,由一组中央处理器(CPU)来驱动DLU微处理器。 自下一代DLU微处理器技术开始,富士通计划将DLU微处理器以某种形式嵌入一组CPU中,不过富士通仍未透露此下一代技术何时将推出。借由上述芯片外(off-chip)网路设计,富士通设想未来能够以DLU微处理器打造非常庞大的系统,目标创建可扩充的平台供处理最大且最复杂的深度学习问题。 富士通的最终计划目标,是要除了拥有面向一般市场的SPARC处理器产品线外,也要打造一个DLU微处理器产品线。 富士通了解到AI与机器学习(ML)在不久的将来可望主导全球科技应用领域,如果不跟进恐面临在未来遭边缘化的危机,目前则是由NVIDIA居于这市场的领先地位,但英特尔(Intel)、AMD(AMD)及英国AI芯片硬件设计新创企业Graphcore等厂商,均在发展自有AI芯片技术上积极投入,预计未来6~12个月可能将相继推出新产品线,届时也将成为富士通DLU微处理器的新竞争对手。 NVIDIA在这块领域具备的优势,在于该公司为自有绘图芯片(GPU)开发的深度学习软件支援,能够让NVIDIA在AI芯片市场上取得较大领先优势,用于处理神经网路的软件架构数量不仅多且仍在增长,但NVIDIA能够完全提供支持,反观微软(Microsoft)、CNTK、Theano、MXNet、Torch、TensorFlow以及Caffe等厂商最多只能支持主要的软件架构部分。 即使如此,对于拥有较庞大资金规模的厂商如富士通及其他厂商来说,这块领域虽然已有大量深度学习软件已经被写入,但相对于未来几年可能发展的数量来说仍是九牛一毛,这意谓在这块领域未来几年仍有容纳其他新进竞争厂商的许多空间,这让富士通等新进厂商仍有抢食这块市场商机的机会。

    时间:2017-07-25 关键词: 富士康 dlu微处理器 dpu

  • Tensilica将在世界移动通信大会上展示富士通采用了多个Tensilica DPU的智能手机

    21ic讯 Tensilica日前宣布该公司将于2013年2月25日至28日于西班牙巴塞罗那举办的世界移动通信大会上展示NTT DOCOMO的ARROWS X F-02E智能手机,展台号:6D101。NTT DOCOMO的ARROWS X F-02E是第一款应用了AccessNetwork Technology公司(以下简称 ANT)的ANT30多模调制解调器的智能手机。ANT是一家由富士通、NTT DOCOMO、NEC公司和富士通半导体有限公司共同成立的合资公司。ANT30多模调制解调器采用了多个Tensilica的数据处理器(DPU) 和基于ConnX BBE的数字信号处理器来完成多模3G和4G LTE通信中的复杂信号处理,还采用了TensilicaHiFi音频/语音DSP(数字信号处理器)的来提供高品质的音频。 Tensilica基带业务部副总裁兼总经理EricDewannain表示:“ANT30的上一代产品在日本市场非常成功,ANT30作为集成了4G LTE和2G/3G标准的第二代产品,延用了Tensilica的DPU和DSP。在第二代产品中,ANT不但采用了功能强大的ConnX BBE DSP,还利用可配置处理器技术定制了优化的可编程加速器,显著降低功耗且延长了电池使用寿命。ANT调制解调器,旨在通过其软件的可编程性来适应网络技术的演进和新的需求,从而服务于全球市场。” ANT30针对下一代智能手机和平板电脑进行设计,可以支持2G/3G和4G LTE调制解调器,提供峰值数据传输速率为100 Mbps的高速数据通信。其独特的软件可编程无线电(SPR)技术,采用了基于Tensilica的多核心架构。 Tensilica的HiFi音频/语音DSP在市场上应用最为广泛,拥有超过100个经验证的音频/语音软件包。Tensilica的HiFi DSP 已被超过50家客户授权使用,出货量超过2亿颗,被广泛应用于智能手机、平板电脑、计算机、数字电视、家庭娱乐和其他消费电子设备。

    时间:2013-02-25 关键词: 富士通 tensilica 世界移动通信大会 dpu

  • Tensilica发展新里程:DPU IP核授权使用机构突破200家

    Tensilica日前宣布,采用其DPU(数据处理器)技术的机构数量达到200家。Tensilica与这200家公司共达成500多项技术许可协议,定制了数千款独特的DPU处理器,并应用于量产芯片中。 这是继上月Tensilica宣布DPU出货量超20亿颗(参见2012年10月11日发布的新闻稿件)后的又一重大发展里程碑。Tensilica此前四个季度(截止2012年6月30日)的技术许可收入始终保持行业第一,较其他DSP(数字信号处理器)IP许可公司的平均收入高出25%。 Tensilica的总裁CEO Jack Guedj表示:“签约机构数量达到200家,这是证明公司业务成功发展的又一重大事件。我们的处理器可以针对应用程序进行优化,为行业提供了最优化的功耗、性能和面积。越来越多的客户会采用Tensilica IP核,因为借助我们完整的音频和基带信号处理方案以及最新的软件编程工具,客户可大大缩短芯片开发周期以尽快投放市场。,我们的潜在客户数量要远远超越其他任何信号处理许可商,因为Tensilica的产品极为全面,从微型DPU到最新的高性能DSP都可提供。”

    时间:2013-01-04 关键词: tensilica 200 ip核 dpu

  • VIA选用Tensilica DPU,用于其固态硬盘芯片的设计

    21ic讯 Tensilica日前宣布,VIA选用了Tensilica的Xtensa®数据处理器(DPU)进行固态硬盘(SSD)片上系统(SoC)的设计。通过技术评估的鉴定,VIA认为在关键算法上,Tensilica 的DPU能够提供优于同类处理器4倍多的性能。   固态硬盘需要更快、更高效的数据管理和处理能力,以提高数据吞吐量(每秒进行输入/输出操作的次数即IOPS)。对于传统的处理器,通常通过提高时钟频率来提高性能。然而,这种方式也增加了功耗和芯片尺寸,特别是频率的大幅提升,使设计师们被迫转向更复杂的多核解决方案。 Tensilica的DPU为设计师们提供可配置的IP核,同时具备控制和信号处理能力,并可提供高带宽接口,无需加快时钟频率就可以提高性能。例如,设计师们可以利用单周期位域处理指令、算术运算指令和并行的单周期查表指令,使运算效率达到同类处理器的10倍以上。这种方式不仅提升了IOPS,也显著降低了功耗和SoC设计本身的复杂性。 VIA首席技术官Jiin Lai表示:“在固态硬盘市场,任何竞争优势对我们来说都是至关重要的。采用Tensilica的DPU使我们的产品具有更低的功耗并增加了数据吞吐量。” Tensilica市场兼业务发展副总裁Steve Roddy表示:“与VIA的成功合作展示了Tensilica的客户是如何受益于高性能、低功耗、小面积的Tensilica DPU,完整的软硬件开发流程,也帮助客户大大简化了与现有RTL和软件集成的工作。”  

    时间:2012-02-16 关键词: tensilica via 固态硬盘 dpu

  • Tensilica新的Xtensa LX4 DPU

    21ic讯 Tensilica日前骄傲地宣布以其面向密集计算数据平面和DSP(数据信号处理器)如成像、视频、网络和有线/无线基带通信的处理器IP巩固了其在IP内核领域的领导者地位,任何需要庞大数据处理的应用都将极大都受益于这些突破性功能――通过内建Tensilica面向SOC的Xtensa® LX4数据平面处理器(DPU)可以将这些应用数据带宽提高4倍!    新的Xtensa LX4 DPU支持更高的本地数据存储位宽,最高到每周期1024比特,支持更宽的128位VLIW(超长指令字)指令,从而提高指令并行度。新增的高速缓存预取功能,可以在片外存储器延时很高的情况下帮助提升系统性能,Tensilica已经将这些技术应用到最新发布的用于LTE通信的ConnX BBE64 DSP上。 “Tensilica DPU的优势在于同时具备控制和信号处理能力,与一个标准的RISC或者DSP内核相比,可以将性能优化提升10倍到100倍!” Tensilica 营销与业务拓展副总裁Steve Roddy指出,“现在,有了Xtensa LX4后, Tensilica可以提供的IP内核包括从微型可编程DPU(采用28nm工艺在0.01mm2提供1GigaMAC DSP能力)到业界最高性能的可授权DSP内核ConnX BBE 64-128,它每秒处理能力超过100 GigaMAC!” 针对高带宽应用有更宽的数据存取能力 与Tensilica的Xtensa LX3 DPU相比, Xtensa LX4 DPU有4倍本地存储器带宽,每个周期最多可以完成2个512位的存取操作,设计师现在可以轻易实现超宽SIMD(单指令多数据)DSP,它可以将更多数据同时送给MAC(乘加运算),使每个时钟周期性能大大提升,这使得Xtensa LX4 DPU特别适合于有线和无线基带处理、视频前处理和后处理、图像信号处理和各种网络包处理应用。 除了上述本地存储器带宽的增强,Tensilica 已有的可定制本地端口和队列可以提供近乎无限的点对点数据和控制信号带宽。Tensilica现在既可以提供在Xtensa DPU和其他系统模块如RTL 模块之间建立内部互连的端口和队列,也可以提供新的超高带宽本地存储器接口。 提供更宽的指令增强并行处理能力 有了Xtensa LX4, Tensilica可以让其FLIX(灵活长度指令扩展)指令的指令长度翻番,从64位扩展到128位,这使得每个时钟周期可以完成的操作数量翻番,FLIX指令可以和Xtensa基本指令集无缝混合,所以在用到FLIX的时候不用很麻烦地去切换模式。 Xtensa LX4 DPU的FLIX指令与传统的VLIW DSP相比,可以在提供超高性能的同时减小代码体积,Tensilica的Xtensa C/C++编译器可以从源代码中推断出并行性,并自动将多个不同操作并行化为一条FLIX指令。一个带有FLIX指令的Xtensa LX4 DPU能以很低的时钟频率运行并行操作,它提供的性能可以与时钟频率更高体积更大的非VLIW 内核相媲美,而在完成相同任务时它的功耗更低! 预存取减少周期数 新的数据预取操作因在数据使用前就提前取到了数据,所以可以减少高延迟系统中执行周期的数量,这样一来,当应用代码需要的时候,数据已经准备好了,在DPU必须等待数据时,可以减少时钟周期的浪费。当数据流是来自相邻存储地址的时候这样的好处就更突出,相比增加一个独立的DMA(直接存储器访问)引擎来说,这是一种更为简易的优化存储器访问的方法。它不需要额外的软件编程和应用代码调整。 成功的关键:自动化 利用Tensilica的开发工具,不仅可以自动生成DPU硬件,还可以生成相匹配的复杂软件工具链,因为所有的Xtensa处理器都包括了一套相同的基本指令集,所以基于这套基本指令集的的第三方应用软件可以运行在所有Xtensa处理器上,甚至是深度定制后的Xtensa DPU。 可定制Xtensa DPU与主流操作系统、DEBUG和ICE(在线仿真器)方案都兼容,每个XtensaDPU都有自动生成的完整的软件工具链,包括一个基于Eclipse框架的高级集成开发环境,一个世界级编译器,一个周期精确且兼容SystemC的指令集仿真器以及完整的工业标准GNU工具链。 随同发布的还有Tensilica的矢量化辅助工具,这是一个首创的工具,它给开发者提供建议来改善他们运行于SIMD(单指令多数据)DSP上的C代码的编程风格,这个矢量化辅助工具可以指出哪些代码妨碍了编译器进行矢量化,所以软件可发者能改善C源代码,从而发挥DPU并行执行的优势。 Tensilica 现就可以提供Xtensa LX4 DPU IP,在45nm工艺下基本型Xtensa LX4 DPU时钟频率可以超过1 GHz,而大小只有0.044 mm2。  

    时间:2011-03-26 关键词: tensilica xtensa 电源新品 lx4 dpu

  • Tensilica新的Xtensa LX4 DPU

    21ic讯 Tensilica日前骄傲地宣布以其面向密集计算数据平面和DSP(数据信号处理器)如成像、视频、网络和有线/无线基带通信的处理器IP巩固了其在IP内核领域的领导者地位,任何需要庞大数据处理的应用都将极大都受益于这些突破性功能――通过内建Tensilica面向SOC的Xtensa® LX4数据平面处理器(DPU)可以将这些应用数据带宽提高4倍!    新的Xtensa LX4 DPU支持更高的本地数据存储位宽,最高到每周期1024比特,支持更宽的128位VLIW(超长指令字)指令,从而提高指令并行度。新增的高速缓存预取功能,可以在片外存储器延时很高的情况下帮助提升系统性能,Tensilica已经将这些技术应用到最新发布的用于LTE通信的ConnX BBE64 DSP上。 “Tensilica DPU的优势在于同时具备控制和信号处理能力,与一个标准的RISC或者DSP内核相比,可以将性能优化提升10倍到100倍!” Tensilica 营销与业务拓展副总裁Steve Roddy指出,“现在,有了Xtensa LX4后, Tensilica可以提供的IP内核包括从微型可编程DPU(采用28nm工艺在0.01mm2提供1GigaMAC DSP能力)到业界最高性能的可授权DSP内核ConnX BBE 64-128,它每秒处理能力超过100 GigaMAC!” 针对高带宽应用有更宽的数据存取能力 与Tensilica的Xtensa LX3 DPU相比, Xtensa LX4 DPU有4倍本地存储器带宽,每个周期最多可以完成2个512位的存取操作,设计师现在可以轻易实现超宽SIMD(单指令多数据)DSP,它可以将更多数据同时送给MAC(乘加运算),使每个时钟周期性能大大提升,这使得Xtensa LX4 DPU特别适合于有线和无线基带处理、视频前处理和后处理、图像信号处理和各种网络包处理应用。 除了上述本地存储器带宽的增强,Tensilica 已有的可定制本地端口和队列可以提供近乎无限的点对点数据和控制信号带宽。Tensilica现在既可以提供在Xtensa DPU和其他系统模块如RTL 模块之间建立内部互连的端口和队列,也可以提供新的超高带宽本地存储器接口。 提供更宽的指令增强并行处理能力 有了Xtensa LX4, Tensilica可以让其FLIX(灵活长度指令扩展)指令的指令长度翻番,从64位扩展到128位,这使得每个时钟周期可以完成的操作数量翻番,FLIX指令可以和Xtensa基本指令集无缝混合,所以在用到FLIX的时候不用很麻烦地去切换模式。 Xtensa LX4 DPU的FLIX指令与传统的VLIW DSP相比,可以在提供超高性能的同时减小代码体积,Tensilica的Xtensa C/C++编译器可以从源代码中推断出并行性,并自动将多个不同操作并行化为一条FLIX指令。一个带有FLIX指令的Xtensa LX4 DPU能以很低的时钟频率运行并行操作,它提供的性能可以与时钟频率更高体积更大的非VLIW 内核相媲美,而在完成相同任务时它的功耗更低! 预存取减少周期数 新的数据预取操作因在数据使用前就提前取到了数据,所以可以减少高延迟系统中执行周期的数量,这样一来,当应用代码需要的时候,数据已经准备好了,在DPU必须等待数据时,可以减少时钟周期的浪费。当数据流是来自相邻存储地址的时候这样的好处就更突出,相比增加一个独立的DMA(直接存储器访问)引擎来说,这是一种更为简易的优化存储器访问的方法。它不需要额外的软件编程和应用代码调整。 成功的关键:自动化 利用Tensilica的开发工具,不仅可以自动生成DPU硬件,还可以生成相匹配的复杂软件工具链,因为所有的Xtensa处理器都包括了一套相同的基本指令集,所以基于这套基本指令集的的第三方应用软件可以运行在所有Xtensa处理器上,甚至是深度定制后的Xtensa DPU。 可定制Xtensa DPU与主流操作系统、DEBUG和ICE(在线仿真器)方案都兼容,每个XtensaDPU都有自动生成的完整的软件工具链,包括一个基于Eclipse框架的高级集成开发环境,一个世界级编译器,一个周期精确且兼容SystemC的指令集仿真器以及完整的工业标准GNU工具链。 随同发布的还有Tensilica的矢量化辅助工具,这是一个首创的工具,它给开发者提供建议来改善他们运行于SIMD(单指令多数据)DSP上的C代码的编程风格,这个矢量化辅助工具可以指出哪些代码妨碍了编译器进行矢量化,所以软件可发者能改善C源代码,从而发挥DPU并行执行的优势。 Tensilica 现就可以提供Xtensa LX4 DPU IP,在45nm工艺下基本型Xtensa LX4 DPU时钟频率可以超过1 GHz,而大小只有0.044 mm2。  

    时间:2011-03-26 关键词: tensilica xtensa 新品发布 lx4 dpu

  • Tensilica授权Chelsio 使用Xtensa LX可配置DPU内核

    Tensilica宣布,授权位于加州Sunnyvale的Chelsio通信公司使用Xtensa LX可配置DPU(数据处理器),用于下一代10Gb以太网终端ASIC(专用集成电路)芯片的设计。Chelsio在前两代终端芯片中已使用了Tensilica Xtensa DPU。Tensilica DPU在网络和数据中心的应用Tensilica DPU是许多网络基础设施应用和访问设备中的关键部件。Xtensa DPU为达到高性能、低功耗所做的优化以及可配置的接口和信号处理功能,使其成为满足高速网络中密集计算性能需求的完美选择。

    时间:2010-07-20 关键词: tensilica xtensa chelsio dpu

  • Express Logic公司ThreadX支持Tensilica最新的第三代钻石系列标准DPU内核

    Tensilica与Express Logic公司今日共同宣布,Express Logic的ThreadX实时操作系统(RTOS)现已应用于Tensilica最新的第三代钻石系列标准数据处理器(DPU)内核。针对小面积高实时性设计的ThreadX RTOS,是通用、低功耗的钻石系列标准处理器在深嵌入控制和信号处理领域的完美选择。Express Logic公司总裁William E. Lamie表示:“免费下载的演示程序展示了Express Logic如何将高效、可配置的ThreadX RTOS移植到Tensilica所有处理器上,包括最新发布的第三代钻石系列标准处理器内核,ThreadX基于C 函数库实现,只有应用程序用到的函数被集成到最终的二进制文件中,这与Tensilica处理器针对不同应用进行配置以达到最佳性能与功耗的思想不谋而合。”Tensilica战略联盟总监Chris Jones表示:“ThreadX是最流行的操作系统之一,因为ThreadX能够简单有效地设计到深嵌入式应用中,如今,借助免费下载的评估版程序,设计人员能够立即发现该操作系统固有的优势。”ThreadX针对快速、实时、高性能而设计。具备优先级抢先调度功能的ThreadX能够帮助应用程序对外部事件及时作出响应,且无论应用程序大小,其响应时间都是确定的。当高优先级线程开始对外部事件作出响应时,将执行高度优化的ThreadX上下文切换—在主频1GHz的DPU内核上需要250纳秒。ThreadX的代码也非常小(kernel大约占2K字节)。Tensilica钻石系列标准DPU内核涵盖了广泛的嵌入式控制功能,包括从超小面积、超低功耗、不带cache的32位RSIC DPU到超高性能的3发射VLIW处理器。

    时间:2010-04-12 关键词: logic tensilica express threadx 行业资讯 石系列 dpu

发布文章

技术子站

更多

项目外包