当前位置:首页 > 异构计算
  • 技术派灵魂人物回归英特尔:背后实际是这样的伪命题

    技术派灵魂人物回归英特尔:背后实际是这样的伪命题

    他是Intel首位CTO(首席技术官),也是“八代目”CEO(首席执行官);他曾亲手设计80386,也曾主导过80486;他曾离开过,也盆满钵溢地归来。 早在一个月前,英特尔便宣告技术老兵帕特·基辛格(Pat Gelsinger)即将回归担任新一任CEO,并在2020年Q4财报发布之际宣布了归期。 2021年2月15日,正值新春之际,遥远的西方闪过一道曙光,伴随着正式上任的号角,一场名为数据的战斗即将打响。 (帕特·基辛格于2021年2月15日加入英特尔,担任公司CEO。基辛格的职业生涯始自英特尔,并曾于1979至2009年在这里工作。) 为什么“八代目”备受瞩目? 英特尔足足50年历史,每一次换帅都是震惊半导体的大新闻,但似乎这次动静更猛烈一些。 这是因为近年来,行业发展之迅猛远超想象,新的代工形式不断“围剿”老牌IDM厂商。从制程数字上来看,英特尔在前任CEO司睿博(Bob Swan)带领下,似乎进入了停滞甚至落后状态。 虽然司睿博也曾是一代大功臣,推动英特尔走向XPU+oneAPI的异构计算大方向布局,也通过几次业务优化更加指明了这条路,具体包括放弃Nervana AI片业务、10亿美元出售手机调制解调业务、NAND闪存业务出售给SK海力士。 不过从几次重大调整和策略来看,司睿博仍然遵循的是财务方向,毕竟在升任CEO前一直担任的是CFO的职位。几次的调整目的很明确,就是转型“死磕”数据这一大蛋糕,也多次强调现在英特尔将是围绕数据为中心的一家企业。数据爆发和摩尔定律放缓双生下,这种策略没有任何问题。 但恰恰,这又是问题症候所在,向来在技术方向登顶的英特尔,制程数字的落后被众人所诟病。反观帕特·基辛格方面,则属于技术一派,在英特尔拥有长达30年的技术生涯,且“师承”罗比特·诺伊斯、戈登·摩尔、安迪·格鲁夫,是英特尔技术领军的象征性人物之一。 (司睿博,来源:英特尔) 7nm是英特尔重要的临界点,就在这样的众望所归的注视下,业界更加寄予希望于这位技术老兵,希望能够带领英特尔继续颠覆制程数字。 目前,根据帕特·基辛格的透露,2023英特尔大部分产品将采用英特尔7nm技术,同时也会有部分产品采用外部代工。 实际上这是个伪命题? 有意思的是,就在近期也有一篇关于英特尔工艺的分析文章出现在SemiWiki,国内著名媒体SemiInsights编译并发布。 该文章对比了两家著名代工厂商的对于制程节点的定义,“代工厂节点路线使用的是65nm,40nm, 28nm, 20nm, 16nm/14nm, 10nm, 7nm, 5nm, 3nm;英特尔节点路线则完全延续了摩尔定律使用65nm, 45nm, 32nm, 22nm, 14nm, 10, 7nm, 5nm”。 由此可以看出,实际上节点从命名上已经偏离了物理尺寸的规则,部分制程节点名称并不符合摩尔定律本身的定义。 笔者也曾介绍过,代工厂的纳米节点命名和英特尔所命名的并不能直接进行比较。事实上,20世纪60年代到90年代末,制程节点指的还是栅极长度,但其实从1997年开始,栅极长度和半节距就不再与过程节点名称匹配,之后的制程节点只是代表着摩尔定律所指的晶体管密度翻倍。 很多情况下,即使晶体管密度增加很少,仍然会为自己制程工艺命名新名,但实际上并没有位于摩尔定律曲线的正确位置。 台积电营销负责人Godfrey Cheng其实曾经也亲口承认,从0.35微米开始,工艺数字代表的就不再是物理尺度,而7nm/N7只是一种行业标准化的术语而已,此后还会有N5等说法。同时,也表示确实需要寻找一种新的语言来对工艺节点进行描述。 文章将各种公司制造工艺转换为“等效节点”(EN),并将代工厂与英特尔制程逐渐节点EN相比较,最终得出预计英特尔7nm节点的EN值为4.1nm,介于代工厂5nm和3nm节点之间;英特尔5nm节点的EN值为2.4nm,介于代工厂3nm和2nm节点之间;按照这样的进程推测,假若英特尔仍继续以密度翻一倍为“信条”,英特尔3nm节点的EN值甚至能够超越代工厂。 该文章作者甚至建议表示:“英特尔可将其7nm重命名为4nm,将5nm为2.5nm,以此在命名上追平外界命名。” (资料图,来源:SemiWiki) 追求完美的“偏执狂” 且不说工艺上孰强孰弱,实际上,英特尔在技术上的“偏执”远超想象。早在2003年迅驰发布后就有人问过帕特·基辛格对摩尔定律的看法。他认为,摩尔定律适用于各个方面,摩尔定律本身是非常强有力工具,也是一种战略,并且在他看来今后不仅是英特尔一家适用摩尔定律,而是各方面都可以使用摩尔定律。 面对英特尔创始人戈登·摩尔所创造的摩尔定律,英特尔也一直谨小慎微将此作为神圣的“信条”,非常“偏执狂”地坚决按照摩尔定律的规定去命名。摩尔也在创造摩尔定律时书写了其在失效后的前路,即异构计算。现在英特尔也“偏执狂”地挖了一个五年的“大坑”,持续发展XPU+oneAPI。这种“偏执”刚好也与帕特·基辛格在技术上钻研的那股劲儿完全吻合。 (帕特·基辛格,来源:英特尔) “英特尔以前也经历过领先和落后的周期。曾经英特尔在多核上缓慢时,我曾参与其中,我们成功扭转了颓势,取得了领导地位。伟大的公司可以从困难时期恢复出来,并且会比以往任何时候都更强大、更具实力。现在就是英特尔的机会,我很期待成为其中一员。我在格鲁夫麾下受过训练,我们将用格鲁夫的态度来推动执行”,帕特·基辛格曾这样表示,这也是他所推崇的“创始人精神”。 由此也可以看出,在技术上“偏执狂”地追求完美将成为帕特·基辛格上任后的主基调。2004年一位记者在采访帕特·基辛格时注意到他每每谈及技术,都会经常使用“享受”这个词,这也足以证实这位老兵在技术上的执着。 这种偏执似乎也感染着周围的人,在这位技术老兵的回归之际,英特尔高级研究员GlennHinton也宣布回归。他是2008年Nehalem架构的功臣之一,该架构对英特尔的CPU体系影响颇深,为随后12年英特尔服务器及x86处理器奠定了基础。 西部数据副总裁刘钢也对这位技术派赞誉有加,称帕特·基辛格是其非常敬佩的英特尔高管、从Intel离开的人才中最好的一位。他还恭喜英特尔终于找到适合的CEO,展现核心科技能力而不是财技。 相信帕特·基辛格将重新焕发英特尔的文化活力,以吸引并激励全球最优秀的工程师和技术专家——老将回归,人才集结。 英特尔未来的发展 帕特·基辛格曾经说过,“英特尔拥有的技术,往往是走在应用之前的,现在的情况有了变化, 我们不仅关注技术, 也同时关心市场需求, 譬如通信 、虚拟技术 、安全管理等方面,我们会在整个技术平台上融入能够满足应用需求的设计理念, 使技术走向市场化。” 现在,司睿博就已经为英特尔铺好了技术走向市场化的路,现在轮到技术再拔高一个档次了。 帕特·基辛格规划的未来中,其一,继续之前的超异构计算,以四种主流芯片(CPU、独立GPU、FPGA、加速器)和一体化软件优势占领数据市场,XPU产品全线开花;其二,宣布了2023年大部分产品采用7nm技术的愿景,并继续投资制程技术,投资和研发7nm以外的下一代产品;其三,利用英特尔自身IDM独特优势,大力发展小芯片2.0。 除此之外,英特尔在未来1000倍提升的技术上的布局包括集成光电、神经拟态计算、量子计算、保密计算和机器编程上,正应了帕特·基辛格那一句英特尔的技术往往走在应用前的。 在“技术偏执狂”的带领下,英特尔的未来更加值得让人关注。 【参考文献】 [1] 张帅. 《Intel换帅,技术流回归?》.计算机世界,2021-1-14. [2] Scotten Jones.《IntelNode Names》. semiwiki,2021-2-15. [3] 马方文.《摩尔定律的魔力》[N].中国计算机报,2003-12-22(A18). [4] 宋建峰.《“未来人”帕特·基辛格》[N].电脑报,2004-10-18(A05). 出品 21ic中国电子网 付斌

    时间:2021-02-20 关键词: 英特尔 摩尔定律 异构计算

  • Nvidia与英特尔全面开战,到底谁能赢得未来?

    英特尔与Nvidia是老对手,现在它们的战争越来越激烈。Nvidia已经收购ARM,ARM一直以来就在觊觎英特尔数据中心业务,Nvidia也对数据中心感兴趣。英特尔呢?它也没有闲着,正马不停蹄开发GPU硬件软件,与Nvidia瞄准的市场一样。谁都不愿输,谁都输不起! 全面开火 收购ARM之后,Nvidia拥有世界级CPU研发资产,而CPU正是英特尔的核心。以前Nvidia的哲学是开发(CUDA)GPU生态系统,将尽可能多的任务交给GPU处理。Nvidia CEO黄仁勋声称边缘、AI是这宗收购案的核心,多年前英特尔CEO Brian Krzanich也曾有过相同的言论。目前英特尔旗下有一个物联网部门,它由前ARM高管领导。 ARM与Nvidia都在向数据中心挺进,而数据中心市场正是英特尔的核心市场。之前Nvidia收购Mellanox、拿到ARM Neoverse知识产权,为的就是给打通能往数据中心的道路。 就在ARM、Nvidia向英特尔领地渗透的时候,英特尔也在反渗透,它正在开发自己的独立GPU。2017年年末时,英特尔宣称要开发一个全栈式GPU软件硬件平台,它说客户希望自己进入这一市场。 在无驾驶领域,因为英特尔收购了Mobileye,一跃成为领导者之一,Nvidia也是无人驾驶芯片的领导者。 展望未来,Nvidia与英特尔的竞争肯定会变得更加激烈,竞争的领域更加宽泛,覆盖独立GPU、数据中心CPU、物联网、AI加速器、网络硬件和汽车技术。在Nvidia看来,英特尔将会成为强劲的GPU竞争者,它有钱,有人才,有技术。在英特尔眼中,ARM的数据中心野心不可能消退。不论是英特尔还是Nvidia,在AI领域都很强大,是势均力敌的对手。 随着战争的升级,Nvidia可能会失去一些AI、GPU市场,但在数据中心夺回一些领地。两家公司的产品利润率都很高(数据中心产品尤其如此),所以未来的竞争除了性能之外,价格也会是杀手锏。 Nvidia想干什么 我们先来回顾一下过去发生的重要事件: ——由于数据中心市场开始接受GPU,用GPU执行AI任务,2016年英特尔收购Nervana和Movidius。 ——为了开发自动驾驶技术,2016年英特尔与Mobileye合作,2017年将它收购。 ——2017年英特尔宣布开发全栈式GPU产品。 ——2018年英特尔宣布将会开发全栈式开源软件生态系统,用于异构计算,当中包括CUDA转换工具。 ——2019年Nvidia击败英特尔,成功收购Mellanox。 ——随后英特尔收购创业公司Barefoot Networks。 ——2019年年末,英特尔收购Habana,随后公司确认正在开发的GPU将会瞄准AI。 因为Nvidia已经收购ARM,行业可能会出现一些变化:首先,Nvidia可能会在ARM生态系统中引入自己的GPU专利,完全替换Mali GPU;其次,在数据中心、物联网领域,Nvidia可能会成为ARM CPU的主要供应商,与X86直接竞争;再次,明年英特尔将会推出自己的独立GPU。 Nvidia收购ARM到底合不合适呢?有人认为这起收购并不明智,因为两家公司的业务模式并不一样,没有协同效应。ARM的模式是向各企业授权IP,而Nvidia开发全栈式解决方案。如果Nvidia想转型,向各企业授权CUDA知识产权,进而统治GPU世界,那就和ARM的模式一样,收入主要是授权费,但这样一来利润率会下降。从趋势看,越来越多的企业需要全栈式解决方案,Nvidia如果向ARM模式转型无疑是倒退。 从另一个角度看,Nvidia如果真的只想打造“ARM+Nvidia”解决方案,付一笔授权费就行了,没有必要花400亿美元买下ARM。另外,GPU是Nvidia的核心业务,GPU跟什么CPU绑在一起并不是很重要,不论是ARM芯片还是X86芯片都无碍大局。 我们可以对收购保持怀疑,但Nvidia也许有更大的野心,最终它的策略可能和英特尔是一样的。英特尔缺少加速器,所以它收购Movidius、Movidius、Altera;Nvidia缺少CPU,所以它收购ARM。 异构计算 还有一点要注意,Nvidia和英特尔都格外看重边缘计算和物联网。在物联网领域,英特尔的策略已经明确,就是要在众多垂直领域提供端到端解决方案。Nvidia如果向英特尔学习,ARM模式恐怕要调整。 Nvidia与英特尔的竞争受到大环境的影响,在如今的科技世界,“异构计算”已成趋势,它的宗旨就是让不同的计算方案互通。强大的科技企业都有自己解决方案,方案为公司专有,现在行业希望能开发出开放互联方案。市场上已经有多个这样的开放方案,但最流行的还是英特尔CXL。为什么会这样?其实不难理解,互联主要与数据中心有关,谁是数据中心的领导者,谁的方案就会有优势。 现在Nvidia离英特尔越来越远,越来越独立,尽管如此,在未来一段时间,将Nvidia与ARM“粘合”在一起的可能仍然会是CXL,是不是很讽刺? 从2018年开始,英特尔就在谈论“创新战略6大支柱”,也就是制程、架构、内存、超微互联、安全和软件。在这个星球上,同时拥有这6大支柱的只有英特尔。即使是Nvidia,它的支柱也不少,但缺少内存和存储。 到了现在,战局似乎已经很明显:Nvidia是独立显卡领导者,而英特尔是数据中心、CPU领导者,但它们的交集越来越多。 在数据中心市场ARM能否成功还不能下结论,云计算企业已经成为英特尔、AMD的巨大威胁。在独立GPU市场,英特尔也许真的可以开发出更有竞争力的产品,但能够拿下多少份额仍是未知之数。所以说,在短期及中期之内,英特尔仍然会是“数据中心之王”,Nvidia仍会是“GPU之王”。它们之所以成为竞争对手,争得越来越厉害,主要是因为两家企业有一些共同点:都重视AI(物联网),都追求卓越的计算性能(以数据为中心,以软件作支撑)。 英特尔目前的市值约为2289亿美元,Nivdia约为3520亿美元;2021财年二财季(截止7月26日的3个月),Nvidia获得营收38.7亿美元,净利6.22亿美元;二季度(截止6月27日的3个月),英特尔的营收达到197亿美元,净利51.1亿美元。从营收利润着眼英特尔显然更强,但投资者看的是未来,他们相信Nvidia前景更光明。你怎么看? 免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

    时间:2020-10-19 关键词: 英伟达 英特尔 异构计算

  • Xilinx回应AMD 300亿收购传闻,异构计算成为“战场”?

    出品 21ic中国电子网 付斌 网站:21ic.com 异构计算加速的大背景下,“巨头吞并”成为了今年的代名词。  10月9日,华尔街日报消息称,美国处理器AMD(超威半导体)公司正在就收购竞争对手芯片制造商Xilinx(赛灵思半导体)进行深入谈判,交易值可能会超过300亿美元。  知情人士宣称,交易协议最快可能在下周完成,但无法保证交易能够达成。该人士强调,收购曾一度停滞,因此结果无法预测,不过双方重启了对话,加快了交易进程。  Xilinx方面,在21ic中国电子网求证时表示,对传闻或者猜测不做任何评论。 市值方面,AMD目前已超过1000亿美元,赛灵思市值逼近260亿美元。 异构计算时代的黄金搭档  “AMD Yes”是最近期间网友对AMD逐渐步入高光时刻的最大评价,自2014 年10 月苏姿丰升任总裁兼CEO,作风强势又极具亲和力的苏姿丰也被粉丝们亲切地称为“苏妈”。尤其是锐龙、霄龙处理器,从笔记本到桌面再到数据中心都硕果累累。而显卡方面则也与NVIDIA打的“焦灼”,先后赢得了索尼、微软主机和三星手机的青睐。 Xilinx作为一家以FPGA(现场可编程门阵列)为主的公司,战略在于“数据中心优先”、“加速核心市场发展”、“驱动自适应计算”三大方面。在今年先后发布一体化 SmartNIC 平台AlveoU25、最强7nm云端芯片Versal Premium、FPGA器件的创新型TCON(Timing Controller,时序控制器)方案。 半导体发展至今,不可避免的事实便是摩尔定律正在放缓。而在摩尔定律放缓,登纳德缩放比例定律和阿姆达尔定律接近瓶颈之下,摩尔甚至也曾给出“解药”,即“异构计算”,现在正是异构CPU与加速器的“黄金时代”。 事实上,类似的剧情早在2015年就已上演,当年Intel(英特尔)以167亿美元收购了FPGA制造商Altera,而Altera则也顺势为Intel后续的“CPU+xPU(GPU+FPGA+ASIC+eASIC)”战略提供了最坚实的基础。  而AMD和Xilinx方面,则一直以来合作紧密,此前为AMD EPYC(霄龙)数据中心处理器提供的NVMe HA,NVMe TC以及Embebded RDMA等一系列面向存储系统的IP,可以帮助AMD构建低延时的高效数据通路,从而实现高效的FPGA的存储加速功能。  21ic家认为,CPU+GPU+FPGA的加速计算,无疑瞄准的是数据中心领域这一蓝海,Intel此前已多次表明已是围绕数据为中心的一家企业,而英伟达则在最近提出的收购案以及发布的各种新产品中不断透露“占领高地”的决心…… 今年或将产生三大半导体收购案  经过了多起收购案的振动,似乎吞并的新闻并没有让人很“意外”。  2020年7月,美国芯片巨头亚德诺半导体(Analog Devices Inc,ADI)宣布,计划以209亿美元的全股票方式收购竞争对手美信集成产品(Maxim Integrated Products),以提升其在包括电信在内的多个行业的能力。这是当时美国最大的并购交易,也是ADI有史以来最大一笔收购。  2020年9月,NVIDIA和软银集团公司(SBG)宣布双方已达成确定性协议。根据协议,NVIDIA将以400亿美元的价格从SBG和SoftBank Vision Fund(统称为“ SoftBank”)收购Arm Limited。预计该交易将立即增加NVIDIA的非GAAP毛利率和非GAAP每股收益。  2020年10月,美国处理器AMD(超威半导体)公司正在就收购竞争对手芯片制造商Xilinx(赛灵思半导体)进行深入谈判,交易值可能会超过300亿美元。  值得一提的是,就在上周的GTC上,NVIDIA宣布推出一种新型处理器-DPU(Data Processing Unit,数据处理单元)),由新型的DOCA(Data-Center-Infrastructure-On-A-Chip Architecture)架构——一种全新的数据中心IOC(Infrastructure On A Chip - 基础架构级芯片)架构提供支持,可实现具有突破性的网络、存储和安全性能。  其解决方案包括基于Arm架构的多核CPU、处理AI等应用的GPU以及高速网络传输接口,后者即来自于收购迈络思获得的SmartNIC技术。在得到监管部门批准之后,英伟达在今年4月宣布完成收购迈络思的交易。  甚至,黄仁勋明确表示:“数据中心已成为新型计算单元。在现代化、安全的加速数据中心中,DPU已成为其重要的组成部分。CPU、GPU和DPU的结合,可构成完全可编程的单一AI计算单元,提供前所未有的安全性和算力。”  英特尔方面,则在2020年架构日上公布了CPU+独立GPU+FPGA+AI加速器以及媲美制程节点转换的“10nm SuperFin技术”。一系列的迹象,无疑使得业界猜测,本次收购是AMD对于竞争对手的快速反应,并受到一系列并购交易的推动。  21ic家认为,异构时代CPU和FPGA这一黄金搭档无疑是数据中心加速最好的组合,伴随着Intel和NVIDIA近期大新闻不断,在竞争对手的“施压”下,AMD和Xilinx的相结合是对生态的一次充分完善。当然,Xilinx本身便拥有着FPGA、存储系统IP、SmartNIC等实力,完全可以胜任AMD的CPU和GPU的加速计算的任务。  相关新闻阅读 【1】 赛灵思最强 7nm芯片交锋云端市场 【2】三大战略下Xilinx描绘了数据的三位一体 【3】拥抱开源的Xilinx描绘了AI之下的刚柔并济 干货技能好文 【1】关于PCB回流,看这一篇就够了! 【2】PCB从业者必读:特殊走线画法与技巧! 【3】干货!端口设计中的保护电路 你和大牛工程师之间到底差了啥? 加入技术交流群,与高手面对面  添加管理员微信 免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

    时间:2020-10-09 关键词: AMD 赛灵思 异构计算

  • 英特尔发布oneAPI软件计划及beta产品,面向异构计算提供统一可扩展的编程模型

    英特尔发布oneAPI软件计划及beta产品,面向异构计算提供统一可扩展的编程模型

    在2019年超级计算大会上,英特尔发布了一项全新软件行业计划oneAPI,助力充分释放高性能计算与人工智能技术融合时代多架构计算的潜力,同时发布了一个oneAPI beta产品。 英特尔oneAPI行业计划,为跨多种包括CPU、GPU、FPGA和其他加速器在内的异构计算,提供了一个统一和简化的应用程序开发编程模型。oneAPI的发布源自英特尔数百万小时软件工程开发的努力,并且标志着一个行业内的变革,从今天受限、封闭的编程方法演变到一个开放的、基于标准的模式,助力开发人员实现跨架构的参与和创新。 英特尔高级副总裁、首席架构师以及架构、图形与软件部门总经理Raja Koduri 表示:“高性能计算和人工智能工作负载需要包括CPU、通用GPU、FPGA,到本月初英特尔展示的更加专用的深度学习芯片NNP在内的多种架构。帮助客户更简便地释放不同计算环境的潜力至关重要,英特尔致力于采取软件先行的策略,为多架构提供统一可扩展的功能加速异构创新。” oneAPI是一个以开发者为中心的平台,将为AI应用无处不在、多架构并存的世界重新定义一种新的编程方式。oneAPI提供一个通用、开放的编程体验,让开发者可以自由选择架构,无需在性能上作出妥协,也大大降低了使用不同的代码库、编程语言、编程工具和工作流程所带来的复杂性。oneAPI保留了现有软件投资,包括支持现有语言,同时为开发人员创造更多丰富的应用程序提供了灵活性。 oneAPI包括了一项基于开放规范的行业计划和一款beta产品。该规范包括一种编程语言、强大的API函数库以及底层硬件接口。oneAPI beta产品为开发者提供了全套的开发工具,包括编译器、编程库、分析器等,并把这些工具封装为特定领域的工具包。初期oneAPI beta版主要面向英特尔®至强®可扩展处理器、带集成显卡的英特尔®酷睿®处理器,以及英特尔® FPGA,未来还将支持更多硬件。开发者可在Intel oneAPI DevCloud平台下载和试用oneAPI工具,并在官方网站上了解更多关于oneAPI的信息。 oneAPI是什么? oneAPI是一个统一的、简化的编程模型,旨在简化跨多架构的开发过程(如CPU、GPU、FPGA、加速器)。oneAPI包含两个组成部分:一项产业计划和一款英特尔® bete产品,都是全新探索的第一步。 ·  oneAPI计划的跨架构开发模型基于行业标准和开放规范,支持广泛的行业生态系统采纳该技术来推动应用开发领域的新演进。 ·  英特尔® oneAPI beta产品是英特尔基于oneAPI的实现,它包括了oneAPI标准组件如直接编程工具(Data Parallel C++)、含有一系列性能库的基于API的编程工具,以及先进的分析、调试工具等组件。开发人员从现在开始就可以在英特尔DevCloud for oneAPI上对基于多种英特尔架构(包括英特尔至强®可扩展处理器、带集成显卡的英特尔酷睿™处理器、英特尔FPGA如英特尔Arria®、Stratix®等)的代码和应用进行测试。这一进展源自于英特尔数百万小时软件工程开发的努力,旨在为全球开发人员提供一座从现有代码和技能过渡到即将来临的xPU时代的桥梁。 oneAPI为何重要? oneAPI是英特尔“软件先行”战略的重要体现,英特尔相信这一战略将定义和引领一个人工智能日益融合、异构及多架构的编程时代。 跨架构(CPU、GPU、FPGA及其他加速器)开发能力对于处理数据密集型工作负载极为重要,因为这种工作负载需要多种架构,这也将成为未来的常态。在今天,每一个硬件平台往往需要开发者维护独立的代码库,这些代码库需要使用不同的语言、库和软件工具进行编程。这是一项极其复杂和耗费时间的工作,会大大降低开发速度、抑制创新。 为了解决这一难题,oneAPI提供一个通用、开放的编程体验,让开发者可以自由选择架构,无需在性能上作出妥协,也大大降低了使用不同的代码库、编程语言、编程工具和工作流程所带来的复杂性,相对于今天的基于单个厂商的封闭式编程环境,oneAPI为开发者提供了极富竞争力、也更先进的可替代选择,帮助他们在保留现有软件投资的基础上,搭建一座无缝连接的桥梁,从而为未来的多架构世界创造更多丰富的应用程序。 为什么英特尔能够应对这项挑战? 英特尔已经深入开发者生态领域超过20年。英特尔拥有15000多名软件工程师和10000项与客户紧密合作的软件部署,是Linux kernel最大的贡献者,每年修改的代码超过50万行,为100多个操作系统进行过优化,并且拥有超过两千万活跃开发者的生态,而这些只是英特尔庞大的软件实力的一部分。 英特尔跨基础架构、网络、操作系统的开发经验,开发工具和SDK以及其所参与并影响的标准制定组织的数量在业界是无与伦比的。凭借深耕行业多年的积累和英特尔软件工程团队数百万个小时的努力,英特尔正通过创建一个统一的编程模型,推动开发普及化,简化困难,为开发者创造一个更具移植性、更高效且性能更高的编程环境,来帮助开发者应对未来的挑战。 为什么需要一个开放式规范? 数十年以来,英特尔与包括ISO C++/Fortran Groups、OpenMP* ARB、MPI Forum、The Khronos Group在内的多个标准制定组织以及行业/学术组织携手,希望通过开放协作的方式寻求一种可实现互操作性与互换性的产品规范,而oneAPI项目就是这一行动的延续。oneAPI将实现与现有行业标准的互操作性。最新oneAPI规范可在oneAPI计划官网查阅。 oneAPI开放式规范包括哪些内容? 这一开放式规范包括一种跨架构的编程语言Data Parallel C++ (DPC++)、一套用于API编程的函数库以及底层硬件接口(oneAPI Level Zero)。有了这些组件,英特尔和其它企业就能创建他们自己的oneAPI实现来支持他们自己的产品,或基于oneAPI进行新产品开发。 Data Parallel C++是什么? DPC++是基于大众熟悉的C和C++语言,专门为oneAPI设计的主要编程语言。它融合了来自Kronos Group的SYCL*,从而可以支持跨CPU和加速器上的数据并行和异构编程,目的是为了简化编程以及提高代码在不同硬件上的可重用性,同时能根据特定的加速器进行调优。 DPC++语言增强将会通过一个开发者社区项目来进行扩展,以简化数据并行编程。该项目向公众开放,并将通过开发者们的共同努力不断发展。 oneAPI规范内容将会开源吗? 很多库和组件已经开源或即将开源。 哪些公司将支持或参与oneAPI计划? 截至11月17日,支持oneAPI概念的业内领先企业和研究机构已经超过30家,包括高性能计算领域的领导者、人工智能领域的创新者、硬件厂商/OEM、独立软件开发商、云服务商、高校等等。其中很多也积极参与了oneAPI beta版工具包的测试并提供反馈意见。 这项计划刚刚启动,英特尔预期未来几年将会有更多参与方加入该计划。企业在创建自己的oneAPI实现并完成自我认证后即可以使用全新oneAPI计划品牌和标识。 不同的oneAPI Beta版工具包都包含了什么? 英特尔 oneAPI 基础工具包(Beta版)包含了一系列核心工具和库,为构建和部署跨架构的高性能以数据为中心的应用而开发。它具体包含了oneAPI开放式规范技术(DPC++语言、特定领域的库)和英特尔® Python*分发包来提供跨相关架构的即时加速,以及能增强分析、协助设计和调试等组件。 除英特尔oneAPI基础工具包外,英特尔还提供其他针对高性能计算、人工智能等专门工作负载的工具包,包括: ·  英特尔oneAPI高性能计算工具包(Beta版):帮助快速交付可扩展的C++、Fortran和OpenMP应用程序 ·  英特尔oneAPI深度学习框架开发者工具包(Beta版):用于建立深度学习框架或对现有深度学习框架实现定制化 ·  英特尔oneAPI渲染工具包(Beta版):用于开发高性能、高精度的可视化应用程序(包括科学可视化) ·  英特尔AI分析工具包(Beta版):由oneAPI提供技术支持,适用于人工智能开发者和数据科学家,以更好地利用机器学习和深度学习模型来构建应用。 ·  此外还有两种oneAPI补充工具包:为系统工程师设计的英特尔系统Bring-Up 工具包以及面向深度学习推理和计算机视觉的生产场景的英特尔发行版 OpenVINO™ 工具开发包。 oneAPI支持哪些处理器和加速器? oneAPI规范是为支持来自多个厂商的各种CPU和加速器而设计的。oneAPI beta版目前支持英特尔CPU(英特尔至强®、酷睿™、凌动)、英特尔Arria FPGA以及作为未来独立数据中心GPU代理开发平台的第九代/英特尔核芯显卡。oneAPI日后将支持更多英特尔加速器架构。 其它厂商的硬件与oneAPI兼容吗? oneAPI规范的DPC++语言和库等都向公众开放使用,我们也鼓励其它硬件厂商使用。其它硬件厂商可以创建自己的oneAPI实现并基于此对特定硬件进行优化。 开发者可以通过哪些途径获取更多信息? 关于oneAPI计划的更多信息可通过访问oneAPI.com获取。开发者可在英特尔开发人员专区,下载英特尔 oneAPI Beta版工具包供本地使用,也可以通过英特尔 DevCloud for oneAPI平台快速入门获得对于oneAPI工具包的访问,并使用它对多个以数据为中心的架构下的代码和工作负载进行测试。该方式无需安装和设置并节省时间,且在无需负担开发平台成本的情况下灵活尝试不同的硬件。 在即将到来的12月,英特尔将分别在上海和北京举办英特尔®oneAPI研讨会,力邀热衷于研究跨平台技术和下一代英特尔软硬件平台功能的软件开发者;使用C++在GPU硬件加速器上进行HPC或AI应用研发的软件开发者;使用C/C++在英特尔CPU上开发高度并行化的应用并有兴趣将来使用GPU或FPGA加速器的软件开发者参加。识别下方二维码即可进行注册报名。

    时间:2019-11-21 关键词: oneapi 英特尔 异构计算

  • 全新Arm IP为主流市场带来智能沉浸式体验

    全新Arm IP为主流市场带来智能沉浸式体验

    北京–2019年10月23日—曾经只是高端设备专属的沉浸式体验,如AR、高保真游戏与以AI为基础的全新移动与家庭应用案例,目前也逐渐成为主流市场的需求。让开发人员能够使用针对日常设备优化的高性能AI与媒体IP解决方案,可以赋能新的AI驱动应用案例,提供包括语音识别与always-on在内的功能,告别这些功能由移动设备所独享的时代。从游戏设备到数字电视(DTV),人工智能已经无所不在,但要促成这些响应式体验,端点必须具备更强的计算能力。例如,数字电视的智能体验,包括智能助理语音指令、节目实时翻译,以及人脸辨识以强化家长监护。为了达成这些功能,Arm宣布将推出两款全新的主流ML处理器,以及最新的MaliGPU与DPU。这些IP的集成代表着Arm有能力根据需求调整产品,把高端的体验带入消费者高效的日常生活设备中。这套全新IP套件包括:Ethos-N57 and Ethos-N37 NPUs:让AI应用成为可能并在ML的性能与成本、面积、带宽与电池寿命之间达成平衡。Mali-G57 GPU:第一款基于Valhall架构的主流GPU,可透过性能提升带来沉浸式体验。·Mali-D37 DPU:以最小的芯片面积达成丰富的显示功能,成为入门设备与小型显示屏幕最适合的显示处理器(DPU)。Ethos-N57与Ethos-N37 NPUs:提供真正的异构计算继Arm ML处理器(现称为Ethos-N77)发布后,Ethos NPU家族又添加Ethos-N57与Ethos-N37两位新成员。Arm Ethos产品组合旨在解决AI与ML复杂运算的挑战,以便为日常生活设备创造更为个性化与沉浸式的体验。由于消费者的设备越来越智能化,通过专属的ML处理器提供额外的AI性能与效率,是非常有必要的。全新的Ethos对成本与电池寿命最为敏感的设计进行优化,NPU可以为日常生活设备带来优质的AI体验。Ethos-N57与Ethos-N37的设计理念包括一些基本原则,例如:·针对Int8与Int16数据类型的支持性进行优化·先进的数据管理技术,以减少数据的移动与相关的耗电·通过如创新的Winograd技术的落地,使性能比其他NPU提升超过200%此外,Ethos-N57的功能还包括:·旨在提供平衡的ML性能与功耗效率·针对每秒2兆次运算次数的性能范围进行优化Ethos-N37的功能还包括:·为了提供面积最小的ML推论处理器(小于1平方毫米)而设计·针对每秒1兆次运算次数的性能范围进行优化更多有关Ethos-N57与Ethos-N37 NPU资料,请参阅Arm blog。Mali-G57:为普罗大众带来智能与沉浸式体验的GPUMali-G57,将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。这是移动市场划分中最大的一部分,而Arm最近与Unity的发布强调其基于Arm IP的片上系统(SoC),CPU, GPU进一步的性能优化的努力,它可以让开发人员有更多的时间创造出全新的沉浸式内容。Mali-G57关键功能包括:·与Mali-G52相比,各种内容都能达到1.3倍的性能密度·能效比提升30%,使电池寿命更长·针对虚拟现实(VR)提供注视点渲染支持,且设备ML性能提升60%,以便进行更复杂的XR实境应用更多有关Mali-G57资料,请参阅Arm blog。Mali-D37:Arm单位面积效率最高的处理器Mali-D37是一个在最小的可能面积上包含丰富显示与性能的DPU。对于终端用户而言,这意味着当面积成为首要考虑,在例如入门级智能手机、平板电脑与分辨率在2k以内的小显示屏等成本较低的设备上,会有更佳的视觉效果与性能。Mali-D37关键功能包括:·单位面积效率极高,DPU在支持全高清(Full HD)与2K分辨率的组态下,16纳米制程的面积将小于1mm2。·通过减少GPU核心显示工作以及包括MMU-600等内存管理功能,系统电力最高可节省30%。·从高阶的Mali-D71保留关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。更多有关Mali-D57的资料,请参阅Arm blog。这一套全新的IP,设计时就考虑到解决方案,并吻合Arm全面运算(Total Compute)的初衷,以确保它们确实是实际体验驱动,同时针对解决未来工作负荷的复杂运算挑战进行优化。这套全新的IP提供更高的单位面积效率且更为节能,同时能提升性能、降低成本及减少上市所需的时间,为移动设备带来更高保真游戏与媲美游戏主机的体验,为DTV带来计算复杂性,并为个人化沉浸式内容带来更高的ML性能,以及消费者期待的更快反应速度。

    时间:2019-10-24 关键词: 人工智能 智能沉浸式体验 异构计算

  • 瞄准异构计算前景,加速云推出全球首张Stratix10加速卡

    瞄准异构计算前景,加速云推出全球首张Stratix10加速卡

    “我们是一家纯技术推导出来的公司。”加速云CEO邬钢在此次发布会上多次强调这一点。而一家技术推导出来的公司都有什么特点呢?从邬刚的分享中可以看出来,加速云非常清楚自己要做什么,而且毫不张扬,脚踏实地。在近日北京召开的新品发布会上,加速云一举发布了多款硬件产品和IP。让我们一起来了解一下。 瞄准异构计算前景 “2014年按照英特尔的发展,下一步一定是异构计算。”邬刚分享到,“英特尔早先曾在工业领域推出过X86+FPGA的方案,但是并没有推开。”邬刚早就洞察到,英特尔将会在异构计算方面投入更多,而我们都知道FPGA的门槛较高,因此生态的建设尤为重要。尤其是在很多应用领域的工程师,并不十分清楚FPGA需要如何进行开发。在2015年的IDF大会上,英特尔宣布将推出一款X86+FPGA的处理器,这时候邬刚认为时机到了,因此开始全力着手进行这方面的开发。 如果你仅从名字上来判断,可能会觉得这是一家专门搞云服务的公司。其实不然,加速云应该说是一家拥有很多IP的硬件公司。邬刚先生表示,在国内这种环境下,单纯做IP并不容易,需要与硬件进行绑定。在加速云的团队里面,既要有很强的算法能力,又要有非常强的工程化的能力。这也是加速云与其它公司相比比较特殊的一点。 在此次发布会上,加速云是首次面向媒体发声,一举推出了两大系列的硬件加速产品(SC-OPS,SC-VPX),两个IP库(FDNN,FBLAS)和三大解决方案(深度学习解决方案、高性能计算及数字信号处理解决方案、边缘计算解决方案),下面笔者来给大家简单介绍一番。 全球首张Stratix10加速卡和VPX刀片加速平台 SC-OPS是加速云推出的一款FPGA加速卡,同时这也是世界上第一款使用了14nm工艺Stratix10的加速卡。据邬刚介绍,加速云属于英特尔TOP 10的支持客户之一,因此可以在Stratix10刚流片时候就可以拿到芯片开始进行设计,这也是其竞争力之一。 SC-OPS集成2753K LE资源和9.2T FLOPS单精度浮点计算能力。单板支持2个40G光口或者电口,支持板间通讯以及设备间级联;板载8个DDR4通道, 支持高带宽和大容量的存储访问。 VPX加速系统是一个定制的专用系统。VPX是一个标准,在整个系统中有主控和业务卡。主控主要用来做配置管理和通信用,业务卡来做数据处理。VPX主要定位于数字信号处理和高性能计算领域。据邬刚介绍,这一张卡最多可以有两个Stratix10,有可以插5张卡的和插10张卡的机框;加速云曾经做过一台可以插16张OPS卡的超算去换天河,比例非常可观。 据悉,VPX单板支持24个200维双精度线性方程求解,相当于360台至强服务器,一个6U整机相当于3600台至强服务器。 深度学习加速库FDNN和高性能计算加速库FBLAS "硬件是载体,IP才是核心。FPGA是一张白纸,有了IP,你可以把它画成清明上河图或者其它。“邬刚如是来形容IP的重要性。 深度学习加速库FDNN是国内首个支持通用卷积神经网络的FPGA加速库,基于RTL级代码,可以提供很高的性能和灵活配置特性。如果把FDNN单独开片的话可以看作是一个类似于谷歌TPU的东西。高性能计算加速库FBLAS是业界更高性能的RTL级数学加速库。 据邬刚介绍,FPGA原厂对于特定行业的理解并没有那么深刻,而特定行业的开发者对于FPGA的应用也有一定困难。对于半导体厂商来讲,也不是每个行业都很懂,也不可能投入那么多的工程师。比如专门设置一个团队搞深度学习,这个不现实。因此原厂更希望提供一些基础的东西,然后找一个第三方来帮他们把行业内的IP都做好,加速云就是它的第三方。加速云做的IP比普通的IP层次还要高一些,普通的IP比如做一个DDS,做一个接口,做一个协议。加速云的IP是基于行业特点开发而来,可以让大家在FPGA的开发上更加易用。 在异构计算领域,加速云走的很快,而且脚踏实地。异构计算的前景已经得到了业界的普遍认可,目前加速云已经积累了很多专用的IP,如果有来者想要赶超,必要要搭上时间再开发一遍。邬刚表示:“想干这件事,先花两年把IP做出来再说,我都已经花了两年做完了,这就是门槛。”

    时间:2018-05-07 关键词: FPGA 技术专访 加速云 fdnn fblas stratix10 异构计算

  • 可重构/异构计算正当红 会是国产芯片快速发展的机会吗?

    可重构/异构计算正当红 会是国产芯片快速发展的机会吗?

    在传统CPU以外,现在业界又兴起了可重构计算的风潮。近期Intel便与清华签订了合作协议,号称将结合Intel在处理器上的优势与清华在可重构计算上的前沿成果研发下一代芯片,并共享知识产权。而前阵子又有号称全球首款完全支持异构系统架构的“华夏芯”横空出世,一时间异构计算和可重构计算的概念让人眼花缭乱。在国产芯加速前进的背景下,异构计算和可重构计算会是国产芯的机会吗? 通用计算与可重构/异构计算的联系和区别 要想看清楚新概念,就要先明了老概念。可重构/异构计算到底新颖在哪里,要首先看看它们的同伴“通用计算”。 所谓通用计算,就是追求普适性的覆盖面。在这个理念下诞生的芯片从功能上来讲拥有最广阔的适用范围,最典型的例子就是今天的中央处理器(CPU)芯片,绝大多数应用程序的绝大部分功能依赖于它。 一般来说,CPU的设计是面向所有应用,评估CPU的性能指标时通常需要选取门类庞杂的各种测试程序,同时只为极少的重点应用加上一定程度的专门优化,例如时下热门的加密解密,视音频编解码等等。 与通用计算相对的就是专用计算,专门针对一些场合进行专门优化,性能/功耗等指标通常比通用CPU有数量级的提高,但是适用面很窄,在规定的适用面以外就远远落后于CPU。 通用和专用的关系就如同什么都懂一些但是基本上什么都不精的“通才”,和在个别领域钻研极深但是其他领域几乎一无所知的“偏才”。 在CPU的技术指标增长逐步放缓的今天,若要提供更好的表现,一个直观的点子就是物尽其用,让“偏才”处理它最擅长的事情,并招来多种专长不同的“偏才”来照顾多种重点事务,其他事情则交给“通才”去完成。一个系统里面存在一个“通才”和多种“偏才”,这就是异构计算,是通用计算和专用计算的“合体进化“。 那么可重构计算是什么?让芯片拥有重构自身的能力,从而能像干细胞一样一身才艺,能够适应各种不同场合的需要,这就是可重构计算。 这一概念的历史至少可以追溯到上世纪80年代,xilinx设计出第一块基于SRAM的可重构芯片的时候。这种芯片里面的基本器件和线路上都配置了大量的开关,这些开关的关断由与之相连的SRAM单元来控制,只要往这些SRAM单元里面写入0和1就能控制这些组件的开关和连通,从而像搭积木一样在原来不存在计算部件的地方拼出大量按需定制的计算部件,使得计算性能产生爆发性的变化。这种芯片被称为FPGA,被广泛用于CPU流片前的验证工作。 那么可重构计算和通用计算\专用计算又是什么关系呢?看上去可重构计算可以替代通用计算,实则不然。由于FPGA芯片底层实现方式的限制,这种由SRAM控制组织结构的做法在性能上远远落后基于ASIC的CPU,只有在一些特定场合下,FPGA才能够实现反超,因此,可重构计算便落入了专用计算的范畴,与异构计算同列。它和异构计算虽然起源不同,但是二者眼下的目标在很大程度上是重叠的,也就是,从传统通用计算的霸主——CPU嘴里抢食。 群雄割据的乱局:通用碰撞专用,CPU碰撞加速器/FPGA 众所周知,Intel在CPU上的优势已经形成事实上的垄断,x86指令集授权和Intel的技术优势让其他公司已经很难染指CPU市场。而大家瞄准的突破口,就在专用计算上。 作为被Intel常年压制的公司,AMD对异构计算的推动尤其热心,不仅早早地将自己旗下的CPU产品重命名成APU(有直译作加速处理器,也有意译作融合处理器),而且还成立了一个HSA(异构系统架构)基金会,拉了ARM、Imagination、联发科、德州仪器、三星、联发科等众多一线大厂一同上阵,主推一个叫做OpenCL的异构编程框架。 光从这一局部态势来看,应该称赞AMD下了一步好棋,但是AMD还有另外一个竞争对手NVIDIA。NVIDIA的主营业务GPU,是异构计算这杆大旗下呼声最高的异构处理部件。也是对CPU地位威胁最大的,以至于在异构计算这个大概念下还催生了些个附属的小概念如“GPU计算”、“GPU编程”,早几年GPU计算还比较新奇的时候,还发生过Intel恼怒于NVIDIA肆意鼓吹GPU的并行优势,公开发文撕逼的事情。尽管Intel一直在提高CPU的SIMD能力、从而压缩GPU的性能优势,但是迄今为止顶尖GPU在实践中对付顶尖CPU仍然能取得2-3倍或者更高的性能。NVIDIA为自家的GPU打造了另一个异构编程框架CUDA,专门与OpenCL唱对台戏,而且呼声更高,至少在高性能计算领域已经形成了对OpenCL的压制态势。 这么一看,是AMD螳螂捕蝉,NVIDIA黄雀在后,然而,还有弹丸在其下。前面提到,FPGA也被证明在一些专门领域具备对CPU的性能优势,而FPGA取得性能优势的领域也多是并行性比较好的,这也刚好是GPU的长处,这就与GPU打架了。例如微软等公司就已经为自己的数据中心加上了FPGA,使用OpenCL进行编程,这样一来GPU又面临着被挖墙脚的窘境。 瞄准可重构/异构领域的国产芯能杀得进去吗? 可以肯定的是,异构计算/可重构计算是当前的一个技术热点,无论在学术研究上还是在工业实践上都是如此,其市场空间是有的。但是国产芯能从中收获多少,笔者抱持比较悲观的态度。 从格局上来讲,专用计算主要弱点是应用场合有限,且GPU和FPGA存在互相竞争。Intel现有的处理器可以在除了低功耗以外几乎任意场合下提供不错的性能,而可重构/异构计算的介入只是在一部分特定业务上再提供大幅加速 —— 这个应用范围就决定了可重构/异构计算不可能替代中央处理器现有的角色,而只是一些特定场合下的附庸,Intel的地位仍然无人能动摇。因此,对于芯片自给率从30%提升至70%的国家战略目标来讲,可重构/异构计算可以是其中漂亮的一块拼图,但是绝对无法担主梁。 从商业上来讲,可重构/异构计算的市场空间正在进一步被Intel压缩。Intel已经于去年年底完成了对FPGA双巨头之一Altera的167亿美元收购,据报道内建FPGA模块的新型xeon志强服务器处理器会在今年一季度面世,以Intel + Altera双强联合的体量来说,可重构市场的市场份额绝大部分肯定不容旁落,除非Intel在定价或者出货时间等问题上出现重大纰漏,国内新兴的这些尚处在襁褓期的可重构计算公司将被迫在夹缝中求生存,这些公司的前景如何,很大程度上是受到Intel间接控制的,笔者对此较难看好。

    时间:2016-03-11 关键词: 芯片 可重构 行业资讯 异构计算

  • 异构/可重构计算:国产芯挑战Intel的大招?

    异构/可重构计算:国产芯挑战Intel的大招?

    在传统CPU以外,现在业界又兴起了可重构计算的风潮。近期Intel便与清华签订了合作协议,号称将结合Intel在处理器上的优势与清华在可重构计算上的前沿成果研发下一代芯片,并共享知识产权。而前阵子又有号称全球首款完全支持异构系统架构的“华夏芯”横空出世,一时间异构计算和可重构计算的概念让人眼花缭乱。在国产芯加速前进的背景下,异构计算和可重构计算会是国产芯的机会吗? 通用计算与可重构/异构计算的联系和区别 要想看清楚新概念,就要先明了老概念。可重构/异构计算到底新颖在哪里,要首先看看它们的同伴“通用计算”。 所谓通用计算,就是追求普适性的覆盖面。在这个理念下诞生的芯片从功能上来讲拥有最广阔的适用范围,最典型的例子就是今天的中央处理器(CPU)芯片,绝大多数应用程序的绝大部分功能依赖于它。 一般来说,CPU的设计是面向所有应用,评估CPU的性能指标时通常需要选取门类庞杂的各种测试程序,同时只为极少的重点应用加上一定程度的专门优化,例如时下热门的加密解密,视音频编解码等等。 与通用计算相对的就是专用计算,专门针对一些场合进行专门优化,性能/功耗等指标通常比通用CPU有数量级的提高,但是适用面很窄,在规定的适用面以外就远远落后于CPU。 通用和专用的关系就如同什么都懂一些但是基本上什么都不精的“通才”,和在个别领域钻研极深但是其他领域几乎一无所知的“偏才”。 在CPU的技术指标增长逐步放缓的今天,若要提供更好的表现,一个直观的点子就是物尽其用,让“偏才”处理它最擅长的事情,并招来多种专长不同的“偏才”来照顾多种重点事务,其他事情则交给“通才”去完成。一个系统里面存在一个“通才”和多种“偏才”,这就是异构计算,是通用计算和专用计算的“合体进化“。 那么可重构计算是什么?让芯片拥有重构自身的能力,从而能像干细胞一样一身才艺,能够适应各种不同场合的需要,这就是可重构计算。 这一概念的历史至少可以追溯到上世纪80年代,xilinx设计出第一块基于SRAM的可重构芯片的时候。这种芯片里面的基本器件和线路上都配置了大量的开关,这些开关的关断由与之相连的SRAM单元来控制,只要往这些SRAM单元里面写入0和1就能控制这些组件的开关和连通,从而像搭积木一样在原来不存在计算部件的地方拼出大量按需定制的计算部件,使得计算性能产生爆发性的变化。这种芯片被称为FPGA,被广泛用于CPU流片前的验证工作。 那么可重构计算和通用计算/专用计算又是什么关系呢?看上去可重构计算可以替代通用计算,实则不然。由于FPGA芯片底层实现方式的限制,这种由SRAM控制组织结构的做法在性能上远远落后基于ASIC的CPU,只有在一些特定场合下,FPGA才能够实现反超,因此,可重构计算便落入了专用计算的范畴,与异构计算同列。它和异构计算虽然起源不同,但是二者眼下的目标在很大程度上是重叠的,也就是,从传统通用计算的霸主——CPU嘴里抢食。 群雄割据的乱局:通用碰撞专用,CPU碰撞加速器/FPGA 众所周知,Intel在CPU上的优势已经形成事实上的垄断,x86指令集授权和Intel的技术优势让其他公司已经很难染指CPU市场。而大家瞄准的突破口,就在专用计算上。 作为被Intel常年压制的公司,AMD对异构计算的推动尤其热心,不仅早早地将自己旗下的CPU产品重命名成APU(有直译作加速处理器,也有意译作融合处理器),而且还成立了一个HSA(异构系统架构)基金会,拉了ARM、Imagination、联发科、德州仪器、三星、联发科等众多一线大厂一同上阵,主推一个叫做OpenCL的异构编程框架。 光从这一局部态势来看,应该称赞AMD下了一步好棋,但是AMD还有另外一个竞争对手NVIDIA。NVIDIA的主营业务GPU,是异构计算这杆大旗下呼声最高的异构处理部件。也是对CPU地位威胁最大的,以至于在异构计算这个大概念下还催生了些个附属的小概念如“GPU计算”、“GPU编程”,早几年GPU计算还比较新奇的时候,还发生过Intel恼怒于NVIDIA肆意鼓吹GPU的并行优势,公开发文撕逼的事情。尽管Intel一直在提高CPU的SIMD能力、从而压缩GPU的性能优势,但是迄今为止顶尖GPU在实践中对付顶尖CPU仍然能取得2-3倍或者更高的性能。NVIDIA为自家的GPU打造了另一个异构编程框架CUDA,专门与OpenCL唱对台戏,而且呼声更高,至少在高性能计算领域已经形成了对OpenCL的压制态势。 这么一看,是AMD螳螂捕蝉,NVIDIA黄雀在后,然而,还有弹丸在其下。前面提到,FPGA也被证明在一些专门领域具备对CPU的性能优势,而FPGA取得性能优势的领域也多是并行性比较好的,这也刚好是GPU的长处,这就与GPU打架了。例如微软等公司就已经为自己的数据中心加上了FPGA,使用OpenCL进行编程,这样一来GPU又面临着被挖墙脚的窘境。 瞄准可重构/异构领域的国产芯能杀得进去吗? 可以肯定的是,异构计算/可重构计算是当前的一个技术热点,无论在学术研究上还是在工业实践上都是如此,其市场空间是有的。但是国产芯能从中收获多少,笔者抱持比较悲观的态度。 从格局上来讲,专用计算主要弱点是应用场合有限,且GPU和FPGA存在互相竞争。Intel现有的处理器可以在除了低功耗以外几乎任意场合下提供不错的性能,而可重构/异构计算的介入只是在一部分特定业务上再提供大幅加速 —— 这个应用范围就决定了可重构/异构计算不可能替代中央处理器现有的角色,而只是一些特定场合下的附庸,Intel的地位仍然无人能动摇。因此,对于芯片自给率从30%提升至70%的国家战略目标来讲,可重构/异构计算可以是其中漂亮的一块拼图,但是绝对无法担主梁。 从商业上来讲,可重构/异构计算的市场空间正在进一步被Intel压缩。Intel已经于去年年底完成了对FPGA双巨头之一Altera的167亿美元收购,据报道内建FPGA模块的新型xeon志强服务器处理器会在今年一季度面世,以Intel + Altera双强联合的体量来说,可重构市场的市场份额绝大部分肯定不容旁落,除非Intel在定价或者出货时间等问题上出现重大纰漏,国内新兴的这些尚处在襁褓期的可重构计算公司将被迫在夹缝中求生存,这些公司的前景如何,很大程度上是受到Intel间接控制的,笔者对此较难看好。

    时间:2016-03-10 关键词: CPU Intel 清华 真心话 国产芯片 可重构计算 异构计算

  • 异构计算和可重构计算是国产芯挑战Intel的机会?

     在传统CPU以外,现在业界又兴起了可重构计算的风潮。近期Intel便与清华签订了合作协议,号称将结合Intel在处理器上的优势与清华在可重构计算上的前沿成果研发下一代芯片,并共享知识产权。而前阵子又有号称全球首款完全支持异构系统架构的“华夏芯”横空出世,一时间异构计算和可重构计算的概念让人眼花缭乱。在国产芯加速前进的背景下,异构计算和可重构计算会是国产芯的机会吗? 通用计算与可重构/异构计算的联系和区别 要想看清楚新概念,就要先明了老概念。可重构/异构计算到底新颖在哪里,要首先看看它们的同伴“通用计算”。 所谓通用计算,就是追求普适性的覆盖面。在这个理念下诞生的芯片从功能上来讲拥有最广阔的适用范围,最典型的例子就是今天的中央处理器(CPU)芯片,绝大多数应用程序的绝大部分功能依赖于它。 一般来说,CPU的设计是面向所有应用,评估CPU的性能指标时通常需要选取门类庞杂的各种测试程序,同时只为极少的重点应用加上一定程度的专门优化,例如时下热门的加密解密,视音频编解码等等。 与通用计算相对的就是专用计算,专门针对一些场合进行专门优化,性能/功耗等指标通常比通用CPU有数量级的提高,但是适用面很窄,在规定的适用面以外就远远落后于CPU。 通用和专用的关系就如同什么都懂一些但是基本上什么都不精的“通才”,和在个别领域钻研极深但是其他领域几乎一无所知的“偏才”。 在CPU的技术指标增长逐步放缓的今天,若要提供更好的表现,一个直观的点子就是物尽其用,让“偏才”处理它最擅长的事情,并招来多种专长不同的“偏才”来照顾多种重点事务,其他事情则交给“通才”去完成。一个系统里面存在一个“通才”和多种“偏才”,这就是异构计算,是通用计算和专用计算的“合体进化“。 那么可重构计算是什么?让芯片拥有重构自身的能力,从而能像干细胞一样一身才艺,能够适应各种不同场合的需要,这就是可重构计算。 这一概念的历史至少可以追溯到上世纪80年代,xilinx设计出第一块基于SRAM的可重构芯片的时候。这种芯片里面的基本器件和线路上都配置了大量的开关,这些开关的关断由与之相连的SRAM单元来控制,只要往这些SRAM单元里面写入0和1就能控制这些组件的开关和连通,从而像搭积木一样在原来不存在计算部件的地方拼出大量按需定制的计算部件,使得计算性能产生爆发性的变化。这种芯片被称为FPGA,被广泛用于CPU流片前的验证工作。 那么可重构计算和通用计算\专用计算又是什么关系呢?看上去可重构计算可以替代通用计算,实则不然。由于FPGA芯片底层实现方式的限制,这种由SRAM控制组织结构的做法在性能上远远落后基于ASIC的CPU,只有在一些特定场合下,FPGA才能够实现反超,因此,可重构计算便落入了专用计算的范畴,与异构计算同列。它和异构计算虽然起源不同,但是二者眼下的目标在很大程度上是重叠的,也就是,从传统通用计算的霸主——CPU嘴里抢食。 群雄割据的乱局:通用碰撞专用,CPU碰撞加速器/FPGA 众所周知,Intel在CPU上的优势已经形成事实上的垄断,x86指令集授权和Intel的技术优势让其他公司已经很难染指CPU市场。而大家瞄准的突破口,就在专用计算上。 作为被Intel常年压制的公司,AMD对异构计算的推动尤其热心,不仅早早地将自己旗下的CPU产品重命名成APU(有直译作加速处理器,也有意译作融合处理器),而且还成立了一个HSA(异构系统架构)基金会,拉了ARM、Imagination、联发科、德州仪器、三星、联发科等众多一线大厂一同上阵,主推一个叫做OpenCL的异构编程框架。 光从这一局部态势来看,应该称赞AMD下了一步好棋,但是AMD还有另外一个竞争对手NVIDIA。NVIDIA的主营业务GPU,是异构计算这杆大旗下呼声最高的异构处理部件。也是对CPU地位威胁最大的,以至于在异构计算这个大概念下还催生了些个附属的小概念如“GPU计算”、“GPU编程”,早几年GPU计算还比较新奇的时候,还发生过Intel恼怒于NVIDIA肆意鼓吹GPU的并行优势,公开发文撕逼的事情。尽管Intel一直在提高CPU的SIMD能力、从而压缩GPU的性能优势,但是迄今为止顶尖GPU在实践中对付顶尖CPU仍然能取得2-3倍或者更高的性能。NVIDIA为自家的GPU打造了另一个异构编程框架CUDA,专门与OpenCL唱对台戏,而且呼声更高,至少在高性能计算领域已经形成了对OpenCL的压制态势。 这么一看,是AMD螳螂捕蝉,NVIDIA黄雀在后,然而,还有弹丸在其下。前面提到,FPGA也被证明在一些专门领域具备对CPU的性能优势,而FPGA取得性能优势的领域也多是并行性比较好的,这也刚好是GPU的长处,这就与GPU打架了。例如微软等公司就已经为自己的数据中心加上了FPGA,使用OpenCL进行编程,这样一来GPU又面临着被挖墙脚的窘境。 瞄准可重构/异构领域的国产芯能杀得进去吗? 可以肯定的是,异构计算/可重构计算是当前的一个技术热点,无论在学术研究上还是在工业实践上都是如此,其市场空间是有的。但是国产芯能从中收获多少,笔者抱持比较悲观的态度。 从格局上来讲,专用计算主要弱点是应用场合有限,且GPU和FPGA存在互相竞争。Intel现有的处理器可以在除了低功耗以外几乎任意场合下提供不错的性能,而可重构/异构计算的介入只是在一部分特定业务上再提供大幅加速 —— 这个应用范围就决定了可重构/异构计算不可能替代中央处理器现有的角色,而只是一些特定场合下的附庸,Intel的地位仍然无人能动摇。因此,对于芯片自给率从30%提升至70%的国家战略目标来讲,可重构/异构计算可以是其中漂亮的一块拼图,但是绝对无法担主梁。 从商业上来讲,可重构/异构计算的市场空间正在进一步被Intel压缩。Intel已经于去年年底完成了对FPGA双巨头之一Altera的167亿美元收购,据报道内建FPGA模块的新型xeon志强服务器处理器会在今年一季度面世,以Intel + Altera双强联合的体量来说,可重构市场的市场份额绝大部分肯定不容旁落,除非Intel在定价或者出货时间等问题上出现重大纰漏,国内新兴的这些尚处在襁褓期的可重构计算公司将被迫在夹缝中求生存,这些公司的前景如何,很大程度上是受到Intel间接控制的,笔者对此较难看好。  

    时间:2016-03-10 关键词: Intel 可重构计算 异构计算

  • AMD建立HSA基金会:异构计算标准发布

    2012年6月份,AMD联合德州仪器、ARM、Imagination、联发科、共同组建了非营利组织“异构系统架构基金会”(HSA Foundation),随后吸引了LG、三星、高通等,目前已有40多家技术企业和17所高等院校。经过将近两年的努力,HSA基金会终于完成了自己的第一个重要使命,批准发布了异构系统架构规范的1.0 Final正式版。(规范标准地址)   这份规范包括三部分: - HSA平台系统架构规范:定义了硬件的操作,其实已经是1.01版。 - HSA编程参考手册:为开发者提供工具、编译器等软件生态,已经是1.02版。 - HSA运行时编程参考手册:解释软件如何与HSA兼容硬件交互。 HSA 1.0规范意在实现硬件独立性高效编程,无论ARM、x86、MIPS后者其他ISA架构的CPU,还是GPU,只要硬件设计符合此标准,都可以随心所欲地操控,大大提高执行效率。 HSA基金会正在制定各种语言的兼容性测试,包括C/C++、OpenMP、Python、HPC C/Fortan。MultiCoreWare就在帮助AMD开发一些此类编译器。 作为基金会的创始成员,AMD自然最有发言权,推进也是最积极的。去年的Kaveri APU就符合HSA 1.0临时规范,今年的Carrizo APU则有望完全符合HSA 1.0正式规范。 Carrizo将在六月份发布,到时候不管兼容性测试工具是否出来都不会再等,AMD也很有信心地表示,符合标准是毫无问题的,最多就是一些细微调整。 至于其他核心成员的产品何时支持HSA,目前还没有具体说法,但投入了这么多精力,大家肯定都会陆续跟上,也都已经表达了对HSA 1.0的支持。

    时间:2015-04-24 关键词: AMD 嵌入式处理器 hsa 异构计算

  • 巨兽的细胞,超级计算机为何使用平板处理器核心?

     日前有消息称,Intel将在代号为“Knights Landing”的下一代Xeon Phi协处理器中配备多达60个核心,而Intel最新公布的资料显示,Knights Landing的核心数量最多是72个!Xeon Phi是用来搭配Xeon、面向高性能计算领域的专用协处理器,目前这种架构已经在很多超级计算机中得到应用。 Intel透露说,Knights Landing的核心架构是Silvermont,是的,你没看错。这个Silvermont就是平板机和迷你机上的Bay Trail处理器的核心,虽然这种核心规模不大,本身性能不是很强悍,但是通过多达72个核心288个线程,以及针对高性能计算的各种优化,双精度浮点性能可以超过3TFlops,堪称怪兽。 为什么我们平板,手机上用的Bay Trail处理器核心会成为超级计算机的核心呢? 一、超级计算机之路 其实,计算机最早的需求就是从超级计算机开始的,无论是实际上第一台机械计算机(英国巴贝奇爵士设计,未最终完成),还是第一台电子计算机eniac,都是做科学计算用的。 计算机发展到PC反而是苹果公司和Wintel联盟出现以后的事情,发展到今天的智能手机则是上个世纪90年代以后了。 计算机性能的扩展有两条道路,一条的不断改进制造工艺,提升芯片设计水平,把单个芯片设计的很强悍,提升性能。还有一条道路是尽可能用比较多的机器并行,用多机机器一起运算来提升性能。 自从计算机出现以来,就一直沿着这两条道路在前进。在这个发展过程中,以深蓝1997年战胜国际象棋大师卡斯帕罗夫为标志,代表了人类智能被机器超越。     二、从高大上到平民化 早期,超级计算机都是昂贵的高级货,处理器是专门设计的,芯片组是配套的,甚至每根连接线都是定制的。这个成本极高。 而随着PC和网络的发展,人们发现追求强大的计算能力可以不那么昂贵。于是,人们开始尝试用大批量生产的PC或者工作站来攒超级计算机。 若干台PC或者工作站通过网络连接起来,把任务分给这些机器并行,然后返回,计算能力丝毫不弱于昂贵的专用超级计算机,于是传统的超级计算机开始没落。 这个时代出现了很多平民化的超级计算机,譬如用浩鑫HTPC准系统凑起来的超级计算机,把一个学校的MAC电脑凑起来的超级计算机等等,这些看似玩具的东西居然一度占据了TOP500超级计算机排行榜,甚至谷歌自己用的服务器也是用这种办法攒出来的。 而在这个过程中,人们发现,限制超级计算机能力居然是功耗,人们不能堆积太多的数量是因为功率和发热限制,性能功耗比甚至比性能本身更重要。 于是,IBM开发出蓝色基因,不追求单个核心的高性能,而是降低功耗,攒更多的数量来提升性能。但是因为单独开发这种处理器在批量和成本上无法与通用的PC处理器相比,并没有流行开。     三、Cell和GPU引发的变革 索尼为了提升PS3游戏机的性能,联合IBM搞了Cell处理器,这是异构计算的开始。因为在计算任务中,有些任务是简单的,不需要复杂的逻辑处理,只需要足够的计算单元暴力计算,这样处理器就可以设计成两部分,一个简单的运算核心,几个强大的简单计算单元,这就是Cell的思路。 因为这种计算编程难度太高,所以Cell用在游戏机上并不成功,但是这个思路可以拿到电脑上,这就是我们熟悉GPU通用计算。 因为3D的需求,显卡有强大的计算能力,这种能力只用于3D游戏浪费了,于是在Cell之后就有了GPU的通用计算,CPU处理复杂任务,GPU处理暴力计算,nVIDIA甚至搞出来CUDA专门解决这个问题,而且在GPU的设计上就为通用计算做了优化。 单台计算机异构化,获得强大的计算能力,那么就可以把这些单台计算机联网,组成计算能力强大的异构超级计算机。 于是中国在2009年搞出来天河一号超级计算机,就是CPU和GPU异构组成的超级计算机,一度排名世界第一。百度搞人工智能的计算机也是这种异构的超级计算机。     四、Intel的反击 如果以后超级计算机全部异构化,那么CPU提供的计算能力只占一小部分,这无疑代表了nVIDIA和AMD要抢Intel的饭碗,Intel当然不能坐以待毙。 于是Intel开始自己做异构用的芯片,这就是Larrabee计划,其实GPU本来就是一个个小的计算核心,然后组合起来。而Intel手里是有小核心的,这就是当年的奔腾一代处理器核心P54C。 Intel把这款20年的老核心集成起来做成众核,做成协处理器,可以做3D显卡,也可以做超级计算机的协处理器。这个项目初期失败了。但是,Intel在这个基础上发展出来了“众核架构”(MIC)的Xeon Phi协处理器。并且获得了天河2号(目前世界第一超级计算机)的选用,Intel扳回一城。 五、Knights Landing的升级 协处理器的能力取决于小核心的计算能力,P54C这个20年前的核心弱爆了。而Silvermont作为Intel反击移动市场的利器,性能功耗比非常出色,于是,Intel把这个小核心攒起来做成众核的Xeon Phi,这就是Knights Landing。 Knights Landing的72个核心将每两个核心构成一个模块(Tile),然后再通过Mesh网格网络连接在一起,共享36MB缓存,还有816GB HBM高带宽显存充当三级缓存。 在内存规格上,Knights Landing支持六通道的DDR4-2400,最大容量384GB。在扩展方面则集成36条PCI-E 3.0通道,可以在一台主机上插数块,提升几倍运算能力。据了解,中国的下一代超级计算机很有可能用上。 所以,低功耗的移动处理器变身超级计算机核心,实际是技术不断探索发展经过几代进步的结果,随着Intel未来移动桌面合一的计划,超级计算机会更加强大,我们的生活也会随之改变。

    时间:2015-04-13 关键词: 超级计算机 平板处理器 异构计算

  • AMD建立HSA基金会:异构计算标准发布

    2012年6月份,AMD联合德州仪器、ARM、Imagination、联发科、共同组建了非营利组织“异构系统架构基金会”(HSA Foundation),随后吸引了LG、三星、高通等,目前已有40多家技术企业和17所高等院校。经过将近两年的努力,HSA基金会终于完成了自己的第一个重要使命,批准发布了异构系统架构规范的1.0 Final正式版。(规范标准地址)   这份规范包括三部分: - HSA平台系统架构规范:定义了硬件的操作,其实已经是1.01版。 - HSA编程参考手册:为开发者提供工具、编译器等软件生态,已经是1.02版。 - HSA运行时编程参考手册:解释软件如何与HSA兼容硬件交互。 HSA 1.0规范意在实现硬件独立性高效编程,无论ARM、x86、MIPS后者其他ISA架构的CPU,还是GPU,只要硬件设计符合此标准,都可以随心所欲地操控,大大提高执行效率。 HSA基金会正在制定各种语言的兼容性测试,包括C/C++、OpenMP、Python、HPC C/Fortan。MultiCoreWare就在帮助AMD开发一些此类编译器。 作为基金会的创始成员,AMD自然最有发言权,推进也是最积极的。去年的Kaveri APU就符合HSA 1.0临时规范,今年的Carrizo APU则有望完全符合HSA 1.0正式规范。 Carrizo将在六月份发布,到时候不管兼容性测试工具是否出来都不会再等,AMD也很有信心地表示,符合标准是毫无问题的,最多就是一些细微调整。 至于其他核心成员的产品何时支持HSA,目前还没有具体说法,但投入了这么多精力,大家肯定都会陆续跟上,也都已经表达了对HSA 1.0的支持。

    时间:2015-03-31 关键词: AMD 嵌入式处理器 hsa 异构计算

  • 高通加盟AMD异构计算组织

    六月中旬,AMD联合ARM、Imagination、联发科、德州仪器等行业巨头成立了“异构系统架构基金会”(HSA Foundation),推动异构计算的发展,并陆续吸引了多家新厂商的加入,成员数量翻了一番还多,今天更是迎来了真正的重量级一员:高通。 HSA基金会主席、AMD公司院士Phil Rogers表示:“高通这样推动了无线通信革命的创新企业支持HSA真是太棒了。HSA将推动计算更加高效,让高通这样的成员企业能够为用户创造更独特、更具吸引力的体验。” 高通将和AMD、ARM、Imagination、联发科、德州仪器,以及后续加盟的三星电子一起,成为HSA基金会的创始成员,地位自然都是高高在上,也表明高通并不是仅仅支持一下,而是会真正投入其中。他们将共同开发一套异构计算架构规范,简化在不同类型平台和设备上软件编程、开发的难度,发挥异构处理器并行计算的潜力。 有了高通的加盟,HSA的异构多核心计算标准将会影响到整个产业的每个角落,这几家创始成员厂商的产品也涵盖了智能手机、平板机、嵌入式设备、笔记本、台式机、服务器等几乎所有计算平台。 高通工程高级副总裁Jim Thompson也透露:“未来的Snapdragon骁龙处理器会拥有更高的计算性能和并行处理能力,满足移动客户高性能、低功耗的需求。我们相信,如果能实现异构计算的标准化,开发人员就能够在未来的Snapdragon处理器上获得更快的速度和更多创新技术,所以我们很高兴加入HSA基金会,帮助定义开放的标准规范。”

    时间:2012-10-11 关键词: 高通 AMD 异构计算

  • 超重量级成员 高通加盟AMD异构计算组织

    六月中旬,AMD联合ARM、Imagination、联发科、德州仪器等行业巨头成立了“异构系统架构基金会”(HSA Foundation),推动异构计算的发展,并陆续吸引了多家新厂商的加入,成员数量翻了一番还多,今天更是迎来了真正的重量级一员:高通。HSA基金会主席、AMD公司院士Phil Rogers表示:“高通这样推动了无线通信革命的创新企业支持HSA真是太棒了。HSA将推动计算更加高效,让高通这样的成员企业能够为用户创造更独特、更具吸引力的体验。” 高通将和AMD、ARM、Imagination、联发科、德州仪器,以及后续加盟的三星电子一起,成为HSA基金会的创始成员,地位自然都是高高在上,也表明高通并不是仅仅支持一下,而是会真正投入其中。他们将共同开发一套异构计算架构规范,简化在不同类型平台和设备上软件编程、开发的难度,发挥异构处理器并行计算的潜力。 有了高通的加盟,HSA的异构多核心计算标准将会影响到整个产业的每个角落,这几家创始成员厂商的产品也涵盖了智能手机、平板机、嵌入式设备、笔记本、台式机、服务器等几乎所有计算平台。 高通工程高级副总裁Jim Thompson也透露:“未来的Snapdragon骁龙处理器会拥有更高的计算性能和并行处理能力,满足移动客户高性能、低功耗的需求。我们相信,如果能实现异构计算的标准化,开发人员就能够在未来的Snapdragon处理器上获得更快的速度和更多创新技术,所以我们很高兴加入HSA基金会,帮助定义开放的标准规范。”

    时间:2012-10-08 关键词: 高通 AMD 异构计算

  • OpenCL 异构计算 AMD引领异构计算潮流

    5月22日,《OpenCL 异构计算》中文译本发布暨高等院校异构计算综合技能及学科应用培训(北京)在中科院软件所举行。作为目前国内第一本全面介绍OpenCL(开放计算语言)的专业指导书籍,此书的出版填补了中国在异构计算领域内的一项空白。同时,AMD (NYSE: AMD)不仅参与和支持该英文原着的编写与出版,还致力于通过先进的理念、技术、和实践推动异构计算在中国乃至全球的普及和发展。 教育部科技发展中心信息处处长曾艳女士、AMD全球副总裁及院士Leendert van Doorn博士,AMD中国技术开发与合作总监楚含进先生等出席了此次活动。“异构计算正成为大势所趋,这本书的出版是OpenCL在中国落地扎根的一个里程碑。”翻译团队代表,来自中国科学院软件研究所并行软件与计算科学实验室的姚继峰博士在致辞中表示。作为走在异构计算领域发展最前列的芯片厂商,AMD和国内高校联合编写了丰富的异构应用实例, 帮助广大开发者更好地学习和掌握OpenCL,推动异构计算在中国的普及,,展现出其成为异构计算领域领导者的实力及决心。 ▲发布会现场 作为业界公认的第一个异构计算开发语言标准,OpenCL 正逐渐被各主要计算平台所采用。基于OpenCL开发的应用程序可以最佳地调用异构系统中的所有计算资源,,最大化发挥计算能力,真正体现异构计算的高效节能优势。目前,作为全球唯一同时拥有CPU(中央处理器)和GPU(图形处理器)精深技术的厂商,AMD推出的AMD Fusion APU能够为OpenCL开发环境提供最佳平台支持,是x86领域中实现异构计算的鼻祖之作。 ▲AMD全球副总裁及院士Leendert van Doorn博士在发布现场进行主题演讲 APU革命性地把多核处理器和独显核心真正融合在一颗芯片内,在兼具两者优势的同时让计算资源在CPU及GPU之间实现智能分配,真正实现“协同计算,彼此加速”。目前已有50多款由领先的软件和网络内容提供商提供的应用软件正在利用APU 技术进行加速,并最终为用户带来全新的加速计算体验,如针对APU优化的IE9给用户带来了更逼真的下一代网上冲浪体验、优化后的暴风影音也正为用户带来更高清、平滑和绚丽的显示效果。其中不乏基于OpenCL开发的应用实例。 大获成功的APU正是基于AMD的异构系统架构((Heterogeneous System Architecture, HSA)。HSA 是集CPU、GPU及第三方IP于一身的开放式异构计算架构,它提供了一个就并行编程和基于OpenCL等行业标准合作的平台,以帮助软件生态系统建立在最新的计算方法基础之上,最终实现高性能、低能耗的极致计算体验。未来,AMD希望越来越多的开发者采用HSA进行异构计算产品设计及基于HSA进行应用程序开发,将HSA推动成为业内统一的异构计算架构标准。据透露,在今年的AMD融聚开发者峰会(AMD Fusion Developer Summit, AFDS)上,将会有针对HSA的重要技术及合作信息发布。 与此同时,AMD也正在全球和中国积极建立并发展异构计算开发者社区,以影响更多的程序员、IT专业人员和草根开发者。通过建设交流和分享平台,提供开源技术资源、开发工具等方式,AMD希望能够帮助开发者更好地进行异构应用程序开发,以拥抱异构计算带来的巨大机会。 “能够参与编写并为这本书译成中文提供帮助,我们感到非常荣幸。” AMD中国技术开发与合作总监楚含进先生表示,“这本书旨在教导异构环境下的编程技巧,它适合不同水平的学习者。我们希望这本书能够成为高校OpenCL课程的教科书,帮助中国高校异构计算人才的培养。”目前,AMD已经在中国10余所大学进行了异构计算及OpenCL的授课和培训,在其不断推动和支持下,已经有老师陆续在各个高校开始相关教学。除此之外,AMD也分别与清华大学、浙江大学等高校合作开展通用GPU应用等科研项目,助力中国专业技术人才队伍的建设及科研创新能力的提高。 异构计算被业界视为继单核、多核之后的第三个时代,它将打破摩尔定律,有效解决能耗、可扩展性等问题,成为全球高性能计算领域中的一种重要新兴模式。作为异构计算领域的先行者和领导者,AMD以其前瞻性的视野及不断创新的技术优势,在异构计算领域已经开展了很多卓有成效的实践和推动工作。未来,AMD希望能够继续为全球异构计算发展和加速中国异构计算普及做出贡献,推动一个全新计算时代的到来。 更多计算机与外设信息请关注:21ic计算机与外设频道

    时间:2012-05-23 关键词: AMD opencl 异构计算

  • AMD高管:异构计算将成热点 内核大战或结束

    据国外媒体报道,AMD服务器业务部门首席技术官唐纳德·纽厄尔(Donald Newell)在一次云计算会议上表示,尽管目前英特尔和AMD在大打内核战,但内核战不会无限期地持续下去。异构计算将成为新的竞争热点。 纽厄尔曾在英特尔工作16年,去年夏季加盟AMD。 纽厄尔说,“尽管我无法精确地预测时间,但内核战将会划上句号。我预计2019年不会有128核的处理器芯片问世。从技术角度看,128核芯片是可能的,但是,能耗将限制芯片集成的内核数量。” 内核大战结束对软件开发者而言也是一个好消息。他们一直受到如何开发并行软件、更好地利用芯片处理能力的困扰。 在上个十年的前期,衡量处理器性能的主要指标是时钟频率,每一代处理器的时钟频率都高于以前的产品。纽厄尔谈到在英特尔的工作时说,“我们曾设想将开发时钟频率达10GHz的芯片,但我们发现,本身散发的热量将使芯片被熔化,于是决定放弃生产这类芯片的计划”。 尽管生产工艺的改进使得摩尔定律仍然有效,但竞争的热点转向了芯片集成的内核数量。双核服务器和台式机将很快被四核产品取代。目前,英特尔和AMD竞争的热点是六核和八核芯片。 纽厄尔指出,内核大战将很快结束,“就像时钟频率大战结束一样,内核大战也将结束”。他预测,处理器新的竞争热点是异构计算,处理器芯片将不再由架构相同的内核组成,而是会像片上系统一样由多种架构的内核组成,分别负责加密、视频渲染和网络等任务。 AMD已经在开发相关技术,将于2011年发布Brazos处理器芯片。纽厄尔说,“我们完全可以在芯片中集成面向不同任务的内核,提高运行效率”,专用内核将起到“协处理器”的作用,“我们在开发更方便地整合不同架构内核的技术”。 英特尔也在向这一方向转型。英特尔的Sandy Bridge架构直接在CPU(中央处理器)中整合了GPU(图形处理器)的功能。最终,处理器芯片的各个部分将能够被重新配置。 芯片设计的另一个方向是能耗管理。纽厄尔指出,“2004年之前,性能是衡量芯片优劣的唯一指标”,之后,能效成为芯片设计的一项重要指标。过去数年来,英特尔和AMD一直在为芯片增添节能技术。

    时间:2010-10-15 关键词: 内核 AMD 异构计算

发布文章

技术子站

更多

项目外包