当前位置:首页 > GPU
  • Xilinx 以全球至高 AI 单位功耗性能扩展边缘计算领先地位

    Xilinx 以全球至高 AI 单位功耗性能扩展边缘计算领先地位

    2021 年 6 月 10 日,中国北京——自适应计算领先企业赛灵思公司今日宣布推出 VersalTM AI Edge 系列,其旨在支持从边缘到终端的 AI 创新。Versal AI Edge 系列可提供较之 GPU[1] 4 倍的 AI 单位功耗性能,以及较之上一代自适应 SoC 10 倍的计算密度,是面向下一代分布式智能系统的全球最具可扩展性且灵活应变的产品组合。 图:赛灵思Versal AI Edge 系列 Versal AI Edge 自适应计算加速平台( ACAP )可为多种应用提供智能功能,包括具备最高级别功能安全性的自动驾驶、协作性机器人、预测性工厂以及医疗系统。该产品组合采用 AI 引擎-机器学习( AIE-ML )架构,可提供较之以往 AI 引擎 4 倍的机器学习算力,同时还集成了全新加速器 RAM 与增强的存储器层级,以应对不断演进的 AI 算法。这些架构创新随之带来的是相比 GPU 高达 4 倍的单位功耗性能和更低时延,进而使得边缘器件的功能更为强大。 AI 赋能的自动化系统要求高计算密度,这样才能从传感器到 AI 再到实时控制进行整体应用加速。相比于Zynq® UltraScale+™ MPSoC,Versal AI Edge 器件能够提供 10 倍计算密度,从而实现这一目标。此外,Versal AI Edge 器件还支持多种安全标准,包括工业( IEC 61508 )、航空电子( DO-254/178 )以及汽车( ISO 26262 ),助力供应商达到 ASIL C 随机硬件完整性和 ASIL D 系统完整性等级。 赛灵思产品管理与营销高级总监 Sumit Shah 表示:“为了应对新的需求与场景,边缘计算应用需要一种架构,能够在严苛的散热与时延限制下提供一系列灵活的计算处理。Versal AI Edge 系列为需要更高智能水平的各种应用提供了这些关键特性。凭借这一点,在涵盖从智能边缘传感器到 CPU 加速器等多种器件的 Versal 产品组合中,Versal AI Edge 系列得以成为其中至关重要的成员。” VDC Research 物联网及嵌入式技术高级分析师 Dan Mandell 表示:“边缘端市场机遇正呈指数级增长。从 2021 年到 2025 年,用于这些独特应用的 AI 芯片组市场规模预计将增加一倍以上。赛灵思 Versal AI Edge 系列是专为 AI 任务所打造的设计,聚焦性能加速的同时还保持了可扩展性和低功耗,是一款能够应对这些重要市场的引人瞩目的解决方案。” Versal AI Edge 系列采用业经量产验证的 7nm Versal 架构,并针对低时延 AI 计算进行微型化处理,其功效水平低至 6 瓦且符合边缘应用中的安全与保密要求。作为一款搭载多样化处理器的异构平台,Versal AI Edge 系列能够令引擎匹配于算法,以标量引擎支持嵌入式计算、以自适应引擎支持传感器融合和硬件灵活应变、以智能引擎支持 AI 推断,其可扩展至高达 479( INT4 ) TOPS[2],这一点是面向边缘应用的 ASSP 和 GPU 无法比拟的,同时还能支持视觉、雷达、激光雷达( LiDAR )以及软件定义的无线电等高级信号处理工作负载。 图:赛灵思Versal AI Edge 系列 连接模块涵盖:符合边缘应用所有必要协议的 LPDDR-4266、32Gb/s 收发器;40G 多速率以太网;配备 CCIX 的 PCIe® Gen4;原生支持最高 8 百万像素以及更高分辨率视觉传感器的 MIPI。这些连接模块对于 L2 乃至更高级的 ADAS 至关重要。借助更加强大的 AI 引擎和含有加速器 RAM 的强化的存储器层级,Versal AI Edge 系列是众多市场中更广泛应用的理想选择。 硬件和软件开发者均可运用 Versal AI Edge ACAP,它所提供的设计入门渠道适用于所有开发者,包括面向硬件开发者的 Vivado® 设计工具、面向软件开发者的 Vitis™ 统一软件平台、面向数据科学家的 Vitis AI,以及面向平台目标应用的特定领域开发系统、框架和加速库。 Versal AI Edge 系列是 Versal ACAP 产品组合的最新成员。Versal ACAP 是完全软件可编程的自适应 SoC,其性能与灵活性远超传统 CPU、GPU 和 FPGA。ACAP 可以在硬件和软件层进行修改,从而动态适应从边缘到云的各种应用和工作负载需求。Versal AI Core 和 Versal Prime 器件已全面投产。与此同时,Versal Premium ACAP现已提供样品。 供货情况 Versal AI Edge 系列设计文档和支持已对早期试样用户开放,预计于 2022 年上半年出货,同时还将包括车规级器件路线图。

    时间:2021-06-10 关键词: AI GPU 机器学习

  • 手机平板CPU、GPU大变天!Arm推出全面计算,游戏玩家有福了

    手机平板CPU、GPU大变天!Arm推出全面计算,游戏玩家有福了

    Arm架构在经历十年后终于迎来Armv9,该架构登场仅一个月就在前阵子亮相在Arm最新发布的Neoverse N2之中。 时隔小两个月时间,Armv9架构终于来到了消费级市场,手机、平板、智能电视将迎来一场新的革命,消费者将拥有全新的智能体验。 超大核、大核、小核CPU全换新 CPU方面,Arm推出旗舰级Cortex-X2、功耗性能兼具的Cortex-A710、高效率“小核”的Cortex-A510三款新产品,三款产品均基于Armv9架构,分别定位不同市场。 “这些CPU都支持全新的动态共享单元 DSU,可扩展至新的水平,支持多达八个 Cortex-X2 内核的配置”,Arm高级副总裁兼终端设备事业部总经理Paul Williamson如是说。动态共享单元( DynamIQ Shared Unit)DSU-110也是本次新品发布会一并被发布的新组件。 实际上,按照之前Cortex-A78、Cortex-A55延续来说,A79、A56更符合之前的风格。不过本次Arm将命名变为三位数的A710、A510,由此可窥探出Arm要将Armv9的新产品和之前的Armv8.2产品区别开来,当然Armv9加持之下,新产品的确取得优良的性能提升效果。 对于这三款产品,Arm依然选择使用PPA(性能、功耗、面积)的方式进行划分,定位在性能优先、平衡性能功耗、功耗优先的三种选择,实际更加通俗的叫法就是“超大核”、“大核”、“小核”。X2升级对应的同定位的前代产品是X1,A710对应的是A78,A510对应的是A55。 1、超大核:Cortex-X2这款产品定位在追求极致的最终性能,作为旗舰级产品必然是一头性能怪兽。根据Paul的介绍,在相同的工艺与频率下X2比X1性能提升16%,ML(机器学习)能力提升2倍。 根据介绍,相较于当前旗舰型安卓智能手机,X2性能高出 30%。相较于2020年主流笔记本电脑芯片单线程性能可提升40%。 除了峰值性能外,Cortex-X2 还可在旗舰智能手机和笔记本电脑之间扩展,使 Arm 的合作伙伴可以根据市场需求来设计基于不同场景的计算能力。 2、大核:Cortex-A710这款产品定位在平衡的功耗和性能,A710相比A78拥有10%的性能提升,30%的能效提升,2倍的ML(机器学习)能力提升。 据介绍,当智能手机运行高要求的app时,用户将获得比以往更长的使用时间以及更优化的用户体验。 3、小核:Cortex-A510这款产品定位在保持不错性能下超高的能效,A510相比A55拥有35%的性能提升,20%的能效提升,3倍的ML(机器学习)能力提升。 “有趣的是,它所带来的性能水平已经接近于我们前一代大核所具备的性能”,Paul这样介绍A510,他强调,这使得 Cortex-A510 不仅适用于智能手机应用,也在家用设备和可穿戴设备中成为领先的处理器。 实际上,在Arm发布Cortex-X1之前,普遍为“4大核+4小核”的结构设计。发布X1后,市售涌现了“2超大核+2大核+4小核”或“1超大核+3大核+4小核”的Tri-Cluster CPU结构设计,用不同的核心应对不同的负载,普遍来说消费产品均采用了后者的搭配。 大小搭配干活不累,Paul为记者放出一组对比,“1+3+4”的结构中,分别将X1替换为X2,A78替换为A710,A55替换为A510,DSU替换为DSU-110,通过对比Armv8.2世代和Armv9世代,他预计尖峰性能将会提升30%,持续性能将会提升30%,小负载性能将会提升35%,而这一切都建立更强的安全性能之下。 GPU也要全部换新 GPU方面,Arm推出推出旗舰级Mali-G710、次旗舰级Mali-G610、中端Mali-510、高效Mali-310。 G710升级对应的同定位的前代产品是G78,G510对应的是G57,G310对应的是G31。 其中需要强调的是,次旗舰产品G610继承了Mali-G710的所有功能,但价格更低,促使合作伙伴能够快速应对这个不断增长的市场,并将高阶应用场景带给更多的开发者和消费者。 1、Mali-G710这款产品定位在最高性能表现GPU,作为旗舰级产品G710相较于前一代产品G78,拥有20%的性能提升,20%的能耗优化,同时机器学习的性能提升 35%。 2、Mali-G510这款产品定位在完美平衡的性能和功耗,G510相较于前一代产品G57,拥有100%的性能提升,22%的能耗优化,同时机器学习性能提升100%。 “22%的能耗减少意味着用户将拥有比以往更长时间来体验完整丰富的用户界面,我们预期它将被采用于数字电视和增强现实的应用中”,Paul如是说。 3、Mali-G310这款产品定位在最好性能的入门级GPU,相较于前一代产品G31,拥有6倍的纹理化提升,4.5倍的Vulkan提升,在Android UI下拥有2倍的性能提升。 全新互连IP加持 高效互连使复杂的SoC交付变得更容易,更可预测和更低成本。手握强大CPU、GPU、NPU IP的Arm想要无缝搭配这些IP更好的互连IP无疑是必要的。 Paul强调,Arm 的互连技术对于提高系统性能至关重要。CoreLink CI-700一致性互连技术和 CoreLink NI-700片上网络互连技术是本次推出CPU、GPU重磅IP的重要纽带。新技术能够使得 Arm CPU、GPU 和 NPU IP 无缝搭配,可跨 SoC 解决方案增强系统性能。 据了解,CoreLink CI-700和CoreLink NI-700对新的 Armv9-A 功能提供硬件级支持,如内存标签扩展(Memory Tagging Extension),并支持更高的安全性、改进的带宽和延迟。 全面计算解决方案不容小觑 在本次发布会上,Paul还提出了Armv9的全面计算解决方案的概念。他表示,全面计算解决方案是一套包含 IP、软件与工具的完整套件,能针对不同的市场应用,打造出最佳的 SoC。 根据Paul的介绍,Arm正试着以系统级的方式满足全部的需求,Arm全面计算解决方案将所有的组件融合在一起,为用户体验实现阶跃变化。 全面计算解决方案让开发者得以打造场景定义的计算,进而让用户可以根据自己的意愿、时间和地点使用设备,丝毫不受影响或妥协。 在性能提升之下,必然能够为游戏玩家提供更好的游戏体验。根据Paul的介绍,全面计算解决方案中通过测量整个游戏内容中全面计算系统优化的结果,每个系统组件都有助于性能的提升。Cortex-A710 CPU 在运行驱动工作负载时,能够带来33%的性能提升,Mali-G710 带来了 20% 的性能提升,系统级IP提供了15% 的效率提升。 本次发布的全新CPU、GPU、互连IP无疑是Armv9架构的全面计算解决方案的核心,本次发布产品的广度、数量和革新都是Arm史无前例的。记者认为,如此重磅的新品堆叠势必撑起Armv9的一片天,将之前的Armv8.2的产品换一番。 需要注意的是,这些新IP均在Armv9的加持之下,要知道Armv9的优点并不只是从架构上优化性能功耗那么简单,还添加了矢量处理的DSP、机器学习ML、安全这三个技术特性。实际上,在Armv9加持下之下,新IP也包含了这三个隐含的优点,相比前一代的升级势必是颠覆性的。

    时间:2021-05-26 关键词: CPU ARM 互连 IP GPU

  • Arm芯片出货超250亿颗,轻松拿下全球GPU出货量榜首!

    Arm芯片出货超250亿颗,轻松拿下全球GPU出货量榜首!

    ARM处理器是英国Acorn有限公司设计的低功耗成本的第一款RISC微处理器。全称为Advanced RISC Machine。ARM处理器本身是32位设计,但也配备16位指令集,一般来讲比等价32位代码节省达35%,却能保留32位系统的所有优势。 ARM的Jazelle技术使Java加速得到比基于软件的Java虚拟机(JVM)高得多的性能,和同等的非Java加速核相比功耗降低80%。CPU功能上增加DSP指令集提供增强的16位和32位算术运算能力,提高了性能和灵活性。ARM还提供两个前沿特性来辅助带深嵌入处理器的高集成SoC器件的调试,它们是嵌入式ICE-RT逻辑和嵌入式跟踪宏核(ETMS)系列。 众所周知,在PC领域,X86架构是霸主,虽然苹果现在用ARM架构的M1芯片取代X86芯片,但还是影响不了大局,X86架构依然占了95%以上的市场。 而在移动芯片领域,ARM架构是霸主,虽然RISC-V现在也试图跨界,但95%的市场还是ARM的天下,谁也动摇不了。拿全球的手机芯片厂商来说,不管是苹果、还是华为、高通、三星、联发科、紫光展锐,全部采用ARM的架构,没有例外。RISC-V也就是在低功耗的物联网领域,有些使用而已,与ARM还没法比。 5月21日消息,半导体IP大厂Arm最新公布的数据显示,Arm及其合作伙伴在2020年的最后一季,共出货史上最高的73亿片基于Arm IP的芯片,较2019年同期增长22%,相当于每秒出货超过900 片芯片或每日出货7000万片芯片。在2020年全年,Arm芯片出货量高达250亿颗,较2019年增长13%。 全球最大的半导体IP公司Arm公布了2020年第4季的销售状况。根据报告指出,仅在2020年第4季,全球基于Arm IP的芯片出货达到了创纪录的67亿颗,超越了x86、ARC、Power 和MIPS 等其他架构芯片出货的总和。 截至2020年底,Arm芯片历年来累计总数超过1900亿颗,其中GPU累计出货超过80 亿颗,2020年有超过10亿颗GPU出货,Arm Mali GPU持续位居全球GPU 出货量榜首。 Arm 指出,随着生态系统持续扩大,2020年总计104家客户完成签署了162个授权协议,超过一半授权对象为首次与Arm 合作。Arm近期的新客户还包括SEMIFIVE 与Telechips。此外,Arm Flexible Access 有90 家合作伙伴,通过这项计划,更容易取用各项领先全球的Arm IP、工具与技术支持。 Arm 推出ARMv9 架构后,预期所有市场对Arm 架构解决方案的需求将持续加速。ARMv9 让伙伴为5G 网路、更高效率的数据中心,以及各式终端与车载架构运算打造的产品,提供更优越的效能与安全性。这股成长动能呼应Arm 预期全球100% 共享数据,很快都将利用Arm 技术处理。不管终端、资料网路或云端,将形成顺畅无缝的运算执行网路。 至于在Mali GPU方面,Arm也说明在2020财年内累积出货达10亿个以上,目前更在全球市场累计出货超过80亿个Mali GPU。 而在2020财年内总计有104家合作伙伴签署162项授权协议,其中有超过一半授权对象为首次与Arm合作伙伴,其中包含SEMIFIVE、Telechips,而藉由Arm Flexible Access (AFA)计划取得Arm授权的合作伙伴更累积达90家,借此更快将应用Arm架构处理器产品带进市场。 Arm IP产品事业群总裁Rene Haas更表示,预期在推出Armv9架构后,将能进一步加速市场对于低耗电、高性能运算需求成长,同时也将藉由5G网络技术扩大更大运算应用范畴。 而随着全球数字化、智能化发展的加速,市场对各种类型芯片的需求出现增长,再加上Arm IP应用的广泛性和强大的生态,这使得Arm架构的芯片未来仍有很大的增长空间。 Arm 在报告中指出,在2020 年第4 季当中,每秒钟就有多达842 片具有Arm核心IP的芯片被售出。同时,值得注意的是,尽管Arm 用于智能手机处理器核心的Cortex-A 系列IP最为消费者所认知与重视。 值得一提的是,之前中国的包括华为在内的多家大厂也向中国监管机构表达了对于NVIDIA收购Arm交易的强烈担忧。 面对外界的种种压力,市场对NVIDIA的信心开始产生变化,就目前的情况来看,NVIDIA想要成功收购Arm并非易事。 为什么ARM这么抢手,这和ARM的商业模式有关,ARM自己并不生产芯片,它只研发指令集(ARM架构),同时也推出自己的IP核,比如CPU核Cortex,还有GPU核 Mali,还有NPU核Ethos。 然后ARM将指令集,GPU、CPU、NPU全部对外授权,其它芯片设计厂商只要从ARM这里付费购买授权,就可以使用ARM的所有现成的东西,这样可以比较容易的设计出属于自己的芯片出来。 再加上台积电、三星的崛起,这些企业购买了ARM授权,设计出自己芯片后,只要交给台积电、三星等来代工,即可以推出自己的芯片来。

    时间:2021-05-25 关键词: 芯片 ARM GPU

  • ARM新品发布会确定,Cortex X2/A79大核或将登场

    ARM新品发布会确定,Cortex X2/A79大核或将登场

    全球疫情持续,2021 COMPUTEX Taipei台北国际电脑展受到最新新冠疫情影响,取消线下展览改为在线,Intel、AMD、NVIDIA三家公布出席之后,ARM确定参与举办新品发布会。 台北国际电脑展(COMPUTEX Taipei)是仅次于德国汉诺威的 CEBIT的全球第二大电脑展,同时也是亚洲最大的电脑展。展览会由台湾对外贸易协会主办。展出地点在台湾台北世界贸易中心,展览周期为一年一届。因疫情的原因,2020 年台北电脑展(COMPUTEX 2020)取消。 Intel发表主题演讲:台北电脑展开幕主题演讲的时间是5月31日10:00~10:30,将会阐述新任CEO Pat Gelsinger的策略,并说明急速加速的数字化转型如何塑造创新的新纪元,将会分享Intel创新如何通过扩大技术潜力来帮助扩大人的潜力,这包括与业务伙伴合作,从数据中心和云端到网络、人工智能、AI边缘运算,来推动整个科技生态系统的创新。 广告 AMD发表主题演讲:6月1日星期二上午10点(美国东部时间5月31日晚上10点): AMD首席执行官Lisa Su博士将在2021年线上Computex(台北国际电脑展)上发表主题演讲。主题将以“AMD加速-高性能计算生态系统”为主题,并将涵盖AMD最近的消费创新,包括为PC爱好者和游戏玩家提供的CPU和GPU。 NVIDIA 将带来系列精彩的演讲。届时,观众将会聆听到 AI、云、数据中心以及游戏行业的最新创新成果。北京时间 6 月 1 日上午 11 点在未来汽车论坛上发表题为 “借助 AI 推动运输业转型” 的演讲。北京时间 6 月 2 日上午 11 点带来题为 “数字化转型前景:融合 AI 力量的工业系统如何崛起以迎接挑战” 的演讲。北京时间 6 月 3 日下午 2点30 分在 AIoT 论坛上发表题为 “元宇宙的起点:NVIDIA Omniverse 与共享世界的未来” 的演讲。 继Intel、AMD和NVIDIA三家后,ARM也公布了此次出席台北电脑展2021的安排。其中CEO Simon Segars将亲自主持讲演活动,主题是未来计算以及后疫情时代的产业恢复等,时间是5月31日下午14点。此外,ARM IP事业部的总裁Rene Haas也将于6月2日下午15点探讨加速无处不在的智能场景。 大胆猜测,ARM可能会借此机会公布基于ARM v9指令集的全新Cortex-A CPU、Mali-G GPU架构,比如新的超级大核X2、标准大核A79、大核GPU G79等。 其实,ARM很早之前就预览了X1/A78之后的两代CPU架构,分别代号Matterhorn(马特洪峰,是阿尔卑斯山脉最为人所知的山峰)和Makalu(马卡鲁峰,海拔8463米)。峰值性能方面,2022年的Makalu预计将比Cortex-A78提升30%。 ARM仍是全球智能手机和平板电脑GPU市场最大的供应商,但市场份额不断下滑。 美国当地时间5月18日,市场调研机构Strategy Analytics最新报告显示,ARM、高通、苹果、Imagination 和英特尔占据2020年智能手机和平板电脑GPU市场的前五名。 其中,ARM作为市场龙头,占据了39%的份额,但与上一年相比有所下降,并且这种趋势可能会持续下去。 ARM得益于移动CPU市场的垄断地位,在被戏称“买CPU送GPU”的方式下成为GPU IP的最大提供商。在2019年,ARM的市场份额超四成以上。 Strategy Analytics手机元件技术服务副总监Sravan Kundojjala表示,ARM的市场份额在2016年达到顶峰,此后一直稳步下降。“关键客户海思受到美国制裁,以及来自苹果和Imagination的竞争,影响了ARM的GPU品牌Mali的出货量和市场份额。” ARM的另一客户三星也将在2021年采用基于AMD GPU的Exynos芯片,从而进一步削减Arm的份额。 2019年,三星与AMD达成协议,获得其GPU技术授权,将其集成在Exynos处理器中。这也是AMD GPU首次进入手机市场。 目前,世界上设计手机芯片所使用的架构大部分来自于英国ARM公司,如华为麒麟系列、苹果A系列,以及高通骁龙系列等。据第三方机构公布的数据显示,ARM公司垄断着世界上95%以上的手机芯片设计架构市场。 然而,由于美国对华为的制裁,ARM公司并没有向华为授权最新的芯片设计架构。 前不久,ARM公司正式发布V9架构,并明确表示,最新V9架构完全不受美国管控,可以授权任一一家中国企业使用,但从ARM公司公布的厂商背书名单中,我们并没有看到华为的名字。基于此,我们可以断定,ARM公司或许已经做出了拒绝向华为授权V9架构的决定。

    时间:2021-05-21 关键词: ARM Cortex GPU

  • 全新NVIDIA A10和A16提供强大的虚拟化性能

    全新NVIDIA A10和A16提供强大的虚拟化性能

    企业依靠GPU虚拟化技术来保持各地员工的生产力。NVIDIA虚拟GPU(vGPU)的性能已成为驱动云和数据中心各种图形与计算密集型工作负载的关键。 现在,各行各业的设计师、工程师和知识工作者可以使用NVIDIA A10和A16 GPU体验加速的性能。 基于NVIDIA Ampere架构的A10和A16可提供更强大的功率、显存和用户密度,大幅增强从图形、AI到VDI等任何工作流程。当与NVIDIA vGPU软件组合时,这两款新的 GPU将大幅提升用户体验、性能和灵活性。 A10提供强大、灵活的虚拟工作站 越来越多的专业人员在工作中使用实时光线追踪、AI、计算、模拟和虚拟现实等先进技术。然而在员工移动性至关重要的今天,为了运行这些工作流程,他们还需要更强大的性能和灵活性才能在任何地点工作。 NVIDIA A10与NVIDIA RTX Virtual Workstation组合后,能够提供高效推动这些复杂工作流程的性能,同时还能确保员工获得最佳用户体验。 借助由A10驱动的虚拟工作站,企业可以通过主流企业服务器中的AI加速应用程序交付增强的图形和视频。 由于A10可以支持虚拟化基础设施上的图形和AI工作负载,数据中心管理员可以灵活调配资源,并运用任何未被充分利用的计算能力来运行AI推理或VDI工作负载。 A10搭载了第二代RT Core和第三代Tensor Core,通过强大的AI来丰富图形和视频应用,专为图形、媒体和游戏开发者工作站打造。与上一代NVIDIA T4 Tensor Core GPU相比,其图形性能提升了2.5倍,推理性能提升了2.5倍以上。 用户还可以在A10上使用NVIDIA AI Enterprise软件运行推理工作负载并达到裸机性能。A10包含全新串流微处理器,高达 24GB GDDR6显存,可实现多功能图形、渲染、AI和计算性能。单宽、全高、全长的PCIe外形设计提高了GPU服务器的密度,在一般情况下每台服务器可使用5到6个GPU。 A16提升远程工作者的VDI用户体验 随着网络会议和视频协作工具的不断普及,远程办公将持续下去。据IDC调查显示,87%的美国企业预计即便解除疫情强制隔离措施,他们的员工仍将继续每周在家工作三天或以上*。 知识工作者使用到多种设备和显示器来高效完成工作。他们还需要方便运用生产力工具和应用,与远程团队成员开展协作。从电子邮件和网页浏览,到视频会议和在线直播,一切都能得益于GPU加速,而NVIDIA A16通过提供新一代VDI带来强大的性能。 对知识工作者而言,A16与NVIDIA vPC软件组合是提供图形丰富的VDI并增强用户体验的理想选择。与上一代M10相比,其用户密度更高,每块板可容纳高达64个并发用户数,总拥有成本降低了20%。 使用由NVIDIA vPC软件和A16驱动的虚拟桌面能够提供足以媲美PC的体验,使得远程工作者可以在办公室和家中无缝衔接工作。 配备A16 和NVIDIA vPC 的GPU加速VDI还提供更高的帧率和更低的终端用户延迟,使得生产力应用和工具的响应速度变得更快,为远程工作人员提供最佳用户体验。 供货情况 NVIDIA A10将作为NVIDIA认证系统的一部分,在本地部署的数据中心、云和边缘均能得到支持。该产品将于本月开始供应。如欲了解更多关于NVIDIA A10的信息,请观看NVIDIA创始人兼首席执行官黄仁勋先生的GTC大会主题演讲。 NVIDIA A16将于今年晚些时候开始供应。 *数据来源于IDC新闻稿,《根据IDC的研究,到2024年移动工作者将占美国工作者总数的60%》,2020年9月。

    时间:2021-04-28 关键词: NVIDIA A10 GPU

  • 矿工危机!巨头英伟达限制GPU硬件

    矿工危机!巨头英伟达限制GPU硬件

    作为老牌芯片巨头,英伟达近期动作不断,包括斥资400亿美元收购芯片设计公司ARM,发布了首款基于ARM架构的数据中心处理器Grace、可以测试使用英伟达AI芯片的自动驾驶汽车的平台Omniverse、客户可根据需要免费租用的DGX Station迷你超算、用于数据中心计算的Bluefield 3数据处理单元(DPU) ,以及用于自动驾驶汽车的Atlan芯片等。显然,英伟达正横跨多个领域布局,打造属于自己的“元宇宙”(metaverse,或称虚拟世界)。 但是最近,英伟达的一系列动作可能预示着矿工的危机。对于显卡挖矿,英伟达的态度似乎在逐渐变得强硬,以前对挖矿的表态比较暧昧,暗示不会打压,现在英伟达要下重手了,RTX 30系显卡可能会全部升级,封杀挖矿性能。 RTX 3060显卡将会升级新的GPU核心——GA106-302-A1,这次会屏蔽挖矿性能,从硬件上就封杀掉。前两天又有消息称即将发布的RTX 3080 Ti也会如此,厂商收到的新版显卡核心代号为GA102-202 or GA102-302,跟之前的QS版不同了。这些新核心跟原有的GPU核心不同,使用的是不同的硬件ID,不能互刷固件,也就避免了驱动破解的可能。当然,不止如此,RTX 3060/3080 Ti显卡封杀挖矿可能只是开始,最新消息称RTX 30全系显卡都会升级新的核心,也会封杀挖矿性能,后续还有RTX 3060 Ti、RTX 3070、RTX 3070 Ti、RTX 3080、RTX 3090等显卡换核心。这消息的真假暂时不得而知,但是听着就大快人心,谁也没想到只认钱的老黄这波突然对着矿老板下手了,你不是高价收显卡挖矿吗?来来来,专业矿卡八千八,随便卖。如果消息属实的话,即使不是在4月份,未来显卡市场A卡和N卡两家大厂都会想着办法逼着矿老板只能买高价的专业矿卡。原因很简单,首先是减轻显卡市场的压力,其次就是产能不足的情况之下,桌面级显卡要是让矿老板这么折腾,迟早会发生显卡市场的大崩盘,到时候谁都没有好果子吃。NVIDIA相当清楚这一点,所以才开始了锁定算力的行动,而3060其实可以算是异常实验,实验基本成功了,下一步就开始准备全面开启专业矿卡的生产,并且针对桌面级显卡开始算力的限制。 看得出来老黄已经开始着手分离开混乱的挖矿和游戏市场,用专业矿卡来全面替代游戏显卡,保护游戏玩家和普通消费者群体。但早在三月中旬,英伟达就宣布在软件层面对RTX 3060进行挖矿的驱动封锁,一时间玩家们都觉得有救了。可随后不到一周时间,就传出英伟达内部流出解锁驱动,黑客已经进行破解。暂未知当时英伟达究竟是“无意”还是“有意”流出破解驱动。但我们能清楚的是,一旦消费级显卡市场崩溃或者直接矿难矿卡大幅流出,对英伟达都没有好处。英伟达相信这种严格的分离,将防止游戏GPU业务形成另一个泡沫,同时令公司能够在瞬息万变的加密货币采矿市场中立足。 英伟达的决定将不可避免地使加密货币矿工感到沮丧,但这是一个明智之举,它牺牲了与加密相关销售的短期增长,以确保游戏业务有长期稳定性。据报导,AMD还正在开发一种用于加密货币挖掘专用的GPU,为其Radeon GPU采用类似限制策略是明智的。 二手市场开始了疯狂的乱象,1660系列显卡和2060系列显卡开始疯狂的回收和扫货。而A卡这边的RX500系列的显卡也是各种疯狂回收,而有心的人早就看出来这明显是矿老板在中间捣鬼,显然矿老板们这是知道了什么内幕,在提前做好准备,相信这些动作和NVIDIA以及AMD的矿卡推出就有关。 英伟达在显卡市场占据了可谓是天时地利人和,AMD独显市场不是对手,英特尔核显才刚起步。在STEAM三月硬件调查报告中,英伟达系显卡占据了75.41%的STEAM游戏平台市场,且还包揽了单卡的排名前10中的前9。如此情况下,英伟达很难因为一时的矿潮而放弃了整个长久的游戏显卡市场。

    时间:2021-04-23 关键词: 英伟达 矿工 GPU

  • 美格智能发布高性价比5G智能算力模组 端侧智能AI设备最佳解决方案

    美格智能发布高性价比5G智能算力模组 端侧智能AI设备最佳解决方案

    随着“十四五”规划纲要将进一步明确加大数字经济占GDP的比重,以及5G网络的全球建设进一步加速,全球对于5G物联网场景建设越来越清晰,以5G为基础的先进工业互联网、云计算、物联网、人工智能、虚拟现实和增强现实等领域的端侧需求也越来越清晰。 “竹外桃花三两枝,春江水暖鸭先知” 美格智能作为专注于5G智能模组的开发者和解决方案的提供者和引领者,针对不断涌现的5G工业设备企业用户的需求,尤其是高性价比5G智能算力模组的解决方案的需求,近日正式推出高性价比的5G智能算力模组 SRM900L,满足客户对于高性价比5G接入、本地AI算力支持、标准API函数接口等需求,助力客户整机产品快速接入5G网络,快速达到量产状态。 美格智能5G智能模组SRM900L采用高通最新的SM4350平台设计开发,与5G智能模组SRM900(SM6350)模组完全PIN to PIN(射频方案和模组成本进一步优化),最大程度的方便客户产品进行高低配置和加快客户导入的节奏,第一批客户已经在试产导入,预计在Q2实现量产。 随着5G智能模组SRM900L的推出,美格智能也是首家实现5G智能模组的中低方案搭配的厂商;同时美格智能研发团队已经完成基于八核2.7G高端5G平台的SRM930设计工作,即将于Q2正式推出,届时将实现“低、中、高”三档5G智能算力模组全覆盖,给客户提供“超大杯”、“大杯”和“高性价比”全维度的物联网行业解决方案,助力智能模组在5G网络下的推广和应用。 美格智能5G智能模组SRM900L模组采用LGA的封装方式,尺寸为:47.0x48.0x3.0mm,模组内置了最新的SM4350 CPU,是高通推出的首款高性价比5G SoC芯片。SRM900L模组支持最低2GB LPDDR4X的RAM和32GB UFS2.1的存储,CPU使用的是基于2*A76 2GHz大核+6*A55 1.8GHz小核演变而来的Kryo 460方案,性能比上代400系列提高100%以上。同时GPU使用的是Adreno 619,性能相比Adreno 610,同样也有着超过100%的提升。 美格智能5G智能模组SRM900L具体配置参数: 在智能连接方面: Sub-6和mmWave DL 4x4和SA/NSA组网模式 TDD、FDD和动态频谱共享(DSS) FastConnect 6200移动连接系统 支持2x2 Wi-Fi以及Wi-Fi6部分特性 集成GPS L1+L5双频定位 在多媒体方面: 高通Spectra 345 camera ISP 多路摄像头、最大64MP拍照 FHD+显示120Hz刷新 基于AI的回声消除和背景噪声抑制 支持1080P60编解码能力 在AI算力方面: 高通Hexagon内置双HVX 512(1 GHz) SNPE性能相对于原骁龙400提升70% 在软件集成方面: 目前支持Android 11版本 规划到Android U (14)长周期版本 其他: 外围接口丰富:UART/I2C/SPI/USB Quick Charge 4+ 美格智能5G智能模组SRM900L典型应用场景和解决方案 美格智能作为全球领先的无线通信模组及解决方案提供商,在无线通信模组尤其是智能模组领域一直保持领先地位,是首家推出5G安卓智能模组的厂家,同时这款低配智能模组方案也将与Q2进入量产状态,以向客户提供高低搭配的智能模组和定制解决方案。 未来,我们还将在新一代信息技术的研发资源投入基础上,继续发掘重点行业客户的各类场景化需求,专注于物联网核心应用场景下的智能模组深度定制业务,以创领行业的智能模组产品和覆盖研发全链条的服务理念,为更多合作伙伴创造价值,以独树一帜的智能化模组产品赋能千行百业,助力万物智联的时代加速到来!

    时间:2021-04-19 关键词: 5G智能算力模组 GPU

  • 揭秘!芯片设计及制造全过程

    揭秘!芯片设计及制造全过程

    驾车时,车辆可以自动感知周围环境动态信息,自动避障;外出旅游,随身携带的智能相机就能轻松拍出超高清画面,即时分享;回到家中,灯光自动开启、机器人已经家中打扫干净……芯片的出现,无疑让生活步入了更加智慧的模式。芯片究竟是什么?为什么会成为人类不可或缺的核心科技?一个小小的硅片,承载着几千万甚至数百亿的晶体管,它是如何被设计和制造出来的?这条短视频,帮你快速了解芯片设计、制造全过程。一颗芯片的诞生,可以分为芯片设计与芯片制造两个环节。芯片设计: 规划“芯”天地芯片设计阶段会明确芯片的用途、规格和性能表现,芯片设计可分为规格定义、系统级设计、前端设计和后端设计4大过程。 1. 规格定义,工程师在芯片设计之初,会做好芯片的需求分析、完成产品规格定义,以确定设计的整体方向。例如:成本控制在什么水平,需要多少TOPS的AI算力,是否功耗敏感,支持哪些联接方式,系统需要遵循的安全等级等。 2. 系统设计, 基于前期的规格定义,明确芯片架构、业务模块、供电等系统级设计,例如CPU、GPU、NPU、RAM、联接、接口等。芯片设计需要综合考量芯片的系统交互、功能、成本、功耗、性能、安全及可维可测等综合要素。 3. 前端设计,前端设计时,设计人员根据系统设计确定的方案,针对各模块开展具体的电路设计,使用专门的硬件描述语言(Verilog或VHDL),对具体的电路实现进行RTL(Register Transfer Level)级别的代码描述。代码生成后,就需要严格按照已制定的规格标准,通过仿真验证来反复检验代码设计的正确性。之后,用逻辑综合工具,把用硬件描述语言写成的RTL级的代码转成门级网表(NetList),以确保电路在面积、时序等目标参数上达到标准。逻辑综合完成后需要进行静态时序分析,套用特定的时序模型,针对特定电路分析其是否违反设计者给定的时序限制。整个设计流程是一个迭代的流程,任何一步不能满足要求都需要重复之前的步骤,甚至重新设计RTL代码。 4. 后端设计,后端设计是先基于网表,在给定大小的硅片面积内,对电路进行布局(Floor Plan)和绕线(Place and Route),再对布线的物理版图进行功能和时序上的各种验证(Design Rule Check、Layout Versus Schematic等),后端设计也是一个迭代的流程,验证不满足要求则需要重复之前的步骤,最终生成用于芯片生产的GDS(Geometry Data Standard)版图。 芯片制造:点“沙”成金芯片制造环节中,芯片是如何被“点沙成金”的呢?看似无关且不起眼的沙子,富含二氧化硅,而二氧化硅通过高温加热、纯化、过滤等工艺,可从中提取出硅单质,然后经特殊工艺铸造变成纯度极高的块状单晶硅,称作单晶硅棒(Crystal Ingot)。单晶硅棒根据用途被切割成0.5mm-1.5mm厚度的薄片,即成为芯片的基本原料,硅晶圆片,这便是“晶圆(Wafer)”。晶圆(Wafer)经过抛光处理及一系列严格筛查后,投入第一阶段的生产工艺,即前段生产(Front End Of Line)。这一阶段主要完成集成晶体管的制造,包括光刻、薄膜、刻蚀、清洗、注入等几大模块的工艺。 第一阶段前段生产(FEOL)完成后,接着开始后段生产(BEOL),BEOL由沉积无掺杂的氧化硅(也就是硅玻璃)开始,通孔由金属钨填充,然后制作晶体管间的电连线,最终得到满足芯片要求的晶圆。获得晶圆后,用圆锯切割芯片,嵌入封装中。芯片使用引线与封装的引脚结合,封装盖子保护芯片不受外界灰尘污染。一颗融合人类智慧结晶的芯片就诞生了! 本文展示的芯片设计及芯片制造流程已经大幅简化,微处理器的生产实际上包含着数千道工艺过程,持续时间长达数周。从个人通信到家庭生活,从交通出行到城市管理等每个人生活的方方面面,都离不开芯片,它是现代社会真正凭借“小身材”而拥有“大智慧”的硬核存在。

    时间:2021-04-05 关键词: 芯片设计 GPU

  • Imagination GPU获赛昉科技选用,助其打造高性能、小尺寸、低成本星光RISC-V AI单板计算机

    英国伦敦和中国上海 ─ 2021年2月22日 ─ Imagination Technologies宣布:业界领先的RISC-V 处理器、平台及解决方案提供商赛昉科技有限公司(StarFive,以下简称“赛昉科技”)授权采用了Imagination的B系列图形处理器(GPU)知识产权(IP),以支持其最新RISC-V单板计算机(SBC)的开发。Imagination的GPU在设计之初就考虑到能够与所有处理器架构协同工作,本次两家企业的合作充分展现了Imagination对开放且发展迅猛的RISC-V生态的良好支持。 赛昉科技将在2021年1月发布的星光人工智能(AI)单板计算机的后续量产版本上加入Imagination GPU,以添加强大、灵活的图形处理性能,使该单板计算机的功能更加完善。星光单板计算机可为业界所追求的高性价比、多用途的RISC-V开发硬件提供十分理想的解决方案。 “星光”是全球首款用于边缘计算的、为Linux操作系统量身定制的RISC-V AI单板计算机,它采用了赛昉科技自主研发的人工智能视觉处理芯片——惊鸿7100,其多核RISC-V处理器运算主频高达1.5GHz。星光不仅配有自研的NNE和ISP,还搭载了VDSP及视频编解码,具备当今台式机的所有可扩展性功能,具有体积小巧、价格低廉、噪音低等特点。凭借Linux与RISC-V的融合,星光AI单板计算机可为工业机械、数据中心、AI、边缘计算等领域的产品和项目开发提供强有力的软硬件支持,缩短项目开发周期,加速产品上市。 赛昉科技本次选用的Imagination BXE-4-32 GPU IP,是Imagination最新一代IMG B系列GPU中的一款内核,可以在性能、尺寸、成本等方面为赛昉科技的单板计算机提供充足优势。B系列是Imagination GPU产品的又一次重要演进,凭借先进的多核架构,其可提供高达6 TFLOPS(每秒万亿次浮点运算)的计算能力,同时相比前几代产品,功耗降低多达30%,面积缩减了25%,带宽需求降低35%,且填充率比竞品IP内核高2.5倍。B系列GPU共拥有多达33种不同的配置,为移动设备、消费类设备、桌面端、服务器、物联网、数字电视(DTV)、汽车等多个市场提供了极为广泛的选择。 赛昉科技CEO徐滔表示:“我们很高兴与Imagination进行合作,双方对RISC-V生态的坚定支持是合作成功的重要保障。Imagination的GPU拥有出色的PPA(性能、功耗、面积)特性,可以帮助我们在优化成本的同时提供强大的功能。我们期待未来可以和Imagination展开更多的战略性合作,利用双方各自的技术和产品优势形成合力,共同打造更加完备的处理器生态,并助推RISC-V技术持续向前发展。” Imagination副总裁兼中国区总经理刘国军表示:“作为RISC-V技术、产品和解决方案的引领者,赛昉科技正在向业界展示他们的信心和决心,RISC-V单板计算机的开发和推出就是很好的例证,非常高兴Imagination的GPU可以在其中扮演重要的角色。Imagination一直都非常重视对中国合作伙伴的支持,我们将继续为赛昉科技及更多中国企业提供性能一流的产品和全面的支持服务,助力他们开发出更多功能强大的产品。”

    时间:2021-02-22 关键词: Imagination 赛昉科技 GPU

  • 你真的了解GPU吗?这5种GPU虚拟化技术你都了解吗?

    你真的了解GPU吗?这5种GPU虚拟化技术你都了解吗?

    GPU,也即图形处理单元。不论在手机中,还是在电脑、笔记本上,GPU都发挥着不可替代的作用。往期文章中,小编对GPU加速原理、GPU服务器选择、GPU存储性能提升等均有所介绍。为增进大家对GPU的认识,本文将对GPU的5种虚拟化技术的实现策略予以介绍。如果你对GPU具有兴趣,不妨继续往下阅读哦。 一、设备模拟(Device Emulation) 设备模拟是指通过软件的方法来为虚拟机模拟GPU设备,这种方法的好处是虚拟机内部都可以调用GPU命令,可以完全记录GPU设备的状态,保证虚拟化技术的全部特性,满足四个标准中的资源复用和支持虚拟化特性的标准。QEMU 通过软件模拟实现了传统的VGA设备,但是该设备的性能很低,只能支持基础的功能。软件模拟设备的方法几乎不会使用硬件加速,因此其实现的GPU性能已经无法满足现在虚拟机的图形图像处理和高性能计算的需求。而且正如前文提到的,现代GPU架构具有很高的复杂性,而且缺少文档,因此很难实现对一个真实的物理GPU进行软件模拟。这意味着设备模拟方法只能模拟少量的API,只能保证少量的GPU特性提供给虚拟机。由于设备模拟的方法在性能和支持的GPU特性上和真实的GPU相差过大,设备模拟的技术已经不再应用到GPU虚拟化技术中。 二、API转发(API Forwarding) API转发是指通过实现包裹图形API的库,这些库在虚拟机调用相关的API时,将这些图形API通过远程过程调用的方法转发到主机上,然后调用主机上的图形驱动提供的API支持完成调用。通过给高层的API实现包裹库,客户机就能支持高层的API如CUDA。vCUDA、vGRIS等虚拟化方案都是利用API转发的方法。这种方法的优点是利于实现,而且一定程度上利用了GPU硬件实现加速,同时可以使多个虚拟机调用的GPU相关指令与API在物理GPU上执行。但是API转发的主要问题在于这种方法失去了语言和库的灵活性选择,包裹库和支持的API的不匹配会造成GPU虚拟化不成功。而如果在迁移的过程中,目标主机与源主机的包裹库版本不一致,可能会造成迁移之后GPU虚拟化不成功,因此API转发会影响虚拟化提供的特性。 三、中介传递(Mediated Pass-through) GPU已经可以支持多个独立的上下文,中介传递的方法使虚拟机只占用这些上下文的一个或者子集。高带宽操作(指令缓存提交、帧缓存提交)需要使用映射到物理GPU的内存或者MMIO资源,低带宽操作(资源分配、传统的特性)可能会通过使用全虚拟化的资源来实现。 四、直接传递(Direct Pass-through) 直接传递是指给一台虚拟机使用一个物理GPU的全部访问权限。Intel提供了Intel VT-d硬件辅助技术,使研究者不需要去了解GPU的编程接口就可以直接实现一台虚拟机占用物理GPU的全部访问权限。这种方法的好处在于可以提供与真实机器相近的性能以及保真度,亚马逊的Amazon EC2提供的GPU资源就是使用这种虚拟化策略。但是这种方法问题在于一个物理GPU只能被一台虚拟机使用,牺牲了GPU资源在多台机器之间共享的条件。而且虚拟化的迁移功能也会受到影响,因为不同体系架构的GPU之间可能存在不兼容。 五、全虚拟化与半虚拟化 GPU虚拟化实现策略按照是否需要修改客户机操作系统内部的驱动代码分为GPU全虚拟化和GPU半虚拟化。GPU全虚拟化是指实现在多个虚拟机之间共享GPu资源的同时不需要修改虚拟机内部的图形驱动。GPU半虚拟化是指向虚拟机提供软件实现的理想设备模型,对客户机的图形驱动进行底层的控制。使用GPU半虚拟化的方法,比API转发的性能消耗更小,但是客户机的设备驱动必须要改写。主流的GPU虚拟化方案GPUvm使用半虚拟化的实现策略对虚拟机GPU的性能有明显的改善。 以上便是此次小编带来的GPU相关内容,通过本文,希望大家对提及的4种GPU虚拟化技术实现策略具备一定的了解。如果你喜欢本文,不妨持续关注我们网站哦,小编将于后期带来更多精彩内容。最后,十分感谢大家的阅读,have a nice day!

    时间:2021-02-03 关键词: 虚拟化技术 指数 GPU

  • 如何选择GPU服务器?如何提升GPU存储性能?

    如何选择GPU服务器?如何提升GPU存储性能?

    GPU是我们常用器件,采用GPU,才使得图形显示成为可能。在上期文章中,小编对GPU的加速原理等知识有所阐述。为增进大家对GPU的认识,本文将基于两点介绍GPU:1.选择GPU服务器需要考虑哪些情况,2.如何提升GPU存储性能。如果你对GPU具有兴趣,不妨继续往下阅读哦。 一、如何选择GPU服务器 当GPU型号选定后,再考虑用什么样GPU的服务器。这时我们需要考虑以下几种情况: 第一、在边缘服务器上需要根据量来选择T4或者P4等相应的服务器,同时也要考虑服务器的使用场景,比如火车站卡口、机场卡口或者公安卡口等;在中心端做Inference时可能需要V100的服务器,需要考虑吞吐量以及使用场景、数量等。 第二、需要考虑客户本身使用人群和IT运维能力,对于BAT这类大公司来说,他们自己的运营能力比较强,这时会选择通用的PCI-e服务器;而对于一些IT运维能力不那么强的客户,他们更关注数字以及数据标注等,我们称这类人为数据科学家,选择GPU服务器的标准也会有所不同。 第三、需要考虑配套软件和服务的价值。 第四、要考虑整体GPU集群系统的成熟程度以及工程效率,比如像DGX这种GPU一体化的超级计算机,它有非常成熟的从底端的操作系统驱动Docker到其他部分都是固定且优化过的,这时效率就比较高。 二、如何提升GPU存储性能 要获得最佳的GPU存储性能,就需要根据业务目标对基础架构进行微调。这里有三种方法可供考虑。 1.大规模调整性能 AI部署的快速增长和ML训练数据集的大小增加了计算基础架构的负担,STFC(The Science and Technology Facilities Council )则是这种典型的代表。尽管STFC已添加了高端GPU服务器以提供更高的计算支持,但STFC缺乏在数百个Researchers 中扩展资源所需的企业级存储功能。 通过在具有RDMA功能的高速网络(例如Infiniband或融合以太网(RoCE)v2上的RDMA)上实现NVMe-over-Fabrics协议,大型AI / ML用户组(例如STFC)可以虚拟化NVMe SSD在各种服务器上未使用的存储资源池,因此它们的性能就像在本地一样。通过这样做,可以在一个小时内完成机器学习培训任务,而以前则需要三到四天。即使具有复杂的模型训练任务,GPU存储也不再是瓶颈。 2.在并行文件系统下使用NVMe池化存储 当AI和ML应用程序涉及从许多GPU服务器访问大量小文件时,作为存储基础架构就必须部署并行分布式文件系统。并行文件系统还使存储更容易实现大多数AI / ML使用所需的高吞吐量和低延迟。在并行文件系统下具有快速、灵活的池化NVMe存储,可以改善对元数据的处理,从而实现更高的读取性能和更低的延迟,从而提高GPU服务器的利用率。 例如,一家超大型技术提供商最近推出了一种AI解决方案,用于预估保险公司使用的车辆碰撞场景。为了开发应用程序背后的AI逻辑,应用程序工作流涉及培训模型,方法是摄取多达2000万个小文件数据集,其中每个文件大小在150-700 KB之间。数据提取通常每8小时以100万个文件的速度或者每个客户端每秒最多35,000个文件进行。 通过在并行分布式文件系统下使用池化NVMe存储方法,该技术提供商消除了它遇到的存储瓶颈,并将存储性能提高了3-4倍。 3.检查特定于GPU的“高速公路” 新的数据中心架构正在以统一的方式提高服务器、网络和存储的性能。一种类似的方法于2019年秋季首次亮相,它将来自多个供应商的基础架构元素与GPU优化的网络和存储进行集成,以在GPU内存和存储之间打开直接的数据通道,从而完全绕开CPU。这使数据能够在GPU、存储和网络设备提供的“开放高速公路”上进行传输,从而实现了对NVMe企业级卓越性能的无障碍访问。 以上便是此次小编带来的“GPU”相关内容,通过本文,希望大家对如何选择GPU服务器和如何提升GPU存储性能具备一定的了解。如果你喜欢本文,不妨持续关注我们网站哦,小编将于后期带来更多精彩内容。最后,十分感谢大家的阅读,have a nice day!

    时间:2021-02-03 关键词: 指数 GPU服务器 GPU

  • GPU与CPU孰强孰弱?GPU如何实现加速?

    GPU与CPU孰强孰弱?GPU如何实现加速?

    GPU在现在的应用中越来越重要,对于GPU,我们都具备些许了解,因为不论是手机中、还是电脑里面,都有GPU的身影。为增进大家对GPU的认识程度,本文将探讨一下GPU和CPU,看看谁的优势更大。此外,小编还将对GPU加速原理予以介绍。如果你对GPU具有兴趣,不妨继续往下阅读哦。 一、GPU与CPU孰强孰弱? GPU是替代不了CPU的,同样,CPU也替代不了GPU。如果形象点理解,GPU就像一群蚂蚁,这些蚂蚁都做着同样的事,而CPU就像一只猴子,这只猴子做着各种不同的事。从根本上说CPU和GPU它们的目的不同,且有不同侧重点,也有着不同的性能特性,在某些工作中CPU执行得更快,另一工作中或许GPU能更好。 当你需要对大量数据做同样的事情时,GPU更合适,当你需要对同一数据做很多事情时,CPU正好。 然而在实际应用中,后一种情形更多,也就是CPU更为灵活能胜任更多的任务。GPU能做什么?关于图形方面的以及大型矩阵运算,如机器学习算法、挖矿、暴力破解密码等,GPU会有所帮助。 简单地说,CPU擅长分支预测等复杂操作,GPU擅长对大量数据进行简单操作。一个是复杂的劳动,一个是大量并行的工作。 其实GPU可以看作是一种专用的CPU,专为单指令在大块数据上工作而设计,这些数据都是进行相同的操作。 要知道处理一大块数据比处理一个一个数据更有效,执行指令开销也会大大降低,因为要处理大块数据,意味着需要更多的晶体管来并行工作,现在旗舰级显卡都是百亿以上的晶体管。 CPU呢,它的目的是尽可能快地在单个数据上执行单个指令。由于它只需要使用单个数据单条指令,因此所需的晶体管数量要少得多。 目前主流桌面CPU晶体管都是十亿以下,和顶级GPU相差十倍以上,但它需要更大的指令集,更复杂的ALU(算术逻辑单元),更好的分支预测,更好的虚拟化架构、更低的延迟等等。 另外,像我们的操作系统Windows,它是为x86处理器编写的,它需要做的任务执行的进程,在CPU上肯定更为高效,你想每个线程的任务并不相同,基本上难以并行化,完全发挥不了GPU的长处。 那么,可以预见在未来,随着CPU进一步强化处理数据块的能力,我们将看到CPU和GPU架构之间的融合,而且随着制造技术的进步和芯片的缩小,GPU也可以承担更复杂的指令。 二、GPU加速原理 GPU一推出就包含了比CPU更多的处理单元,更大的带宽,使得其在多媒体处理过程中能够发挥更大的效能。例如:当前最顶级的CPU只有4核或者6核,模拟出8个或者12个处理线程来进行运算,但是普通级别的GPU就包含了成百上千个处理单元,高端的甚至更多,这对于多媒体计算中大量的重复处理过程有着天生的优势。下图展示了CPU和GPU架构的对比。 从硬件设计上来讲,CPU由专为顺序串行处理而优化的几个核心组成。另一方面,GPU则由数以千计的更小、更高效的核心组成,这些核心专为同时处理多任务而设计。 通过上图我们可以较为容易地理解串行运算和并行运算之间的区别。传统的串行编写软件具备以下几个特点:要运行在一个单一的具有单一中央处理器(CPU)的计算机上;一个问题分解成一系列离散的指令;指令必须一个接着一个执行;只有一条指令可以在任何时刻执行。而并行计算则改进了很多重要细节:要使用多个处理器运行;一个问题可以分解成可同时解决的离散指令;每个部分进一步细分为一系列指示;每个部分的问题可以同时在不同处理器上执行。 举个生活中的例子来说,你要点一份餐馆的外卖,CPU型餐馆用一辆大货车送货,每次可以拉很多外卖,但是送完一家才能到下一家送货,每个人收到外卖的时间必然很长;而GPU型餐馆用十辆小摩托车送货,每辆车送出去的不多,但是并行处理的效率高,点餐之后收货就会比大货车快很多。 以上便是此次小编带来的“GPU”相关内容,通过本文,希望大家对如何实现GPU加速等知识具备一定的了解。如果你喜欢本文,不妨持续关注我们网站哦,小编将于后期带来更多精彩内容。最后,十分感谢大家的阅读,have a nice day!

    时间:2021-02-03 关键词: CPU 指数 GPU

  • 传Intel将订单外包给台积电和三星,旗下GPU将使用4nm工艺

    传Intel将订单外包给台积电和三星,旗下GPU将使用4nm工艺

    据韩国经济日报报道,三星电子获得Intel的第一笔订单。 该芯片组安装在电脑主板上,起到控制计算机输入输出操作的作用。 报道中还提到,Intel委托台积电生产图形处理器(GPU),后者计划使用4nm工艺制造Intel的GPU,计划从今年下半年开始生产。 据悉,三星也将从今年下半年开始,在其位于德克萨斯州奥斯汀的代工厂,生产Intel的南桥芯片组,月产能为15000片晶圆,相当于奥斯汀工厂产能的3%。 一位业界相关人士表示:“虽然这次三星未能拿下Intel的GPU订单,但是此次芯片代工订单仍然意义重大,因为三星为将来赢得高端芯片订单奠定了基础。” 昨天,Intel即将上任的CEO帕特·盖尔辛格(Pat Gelsinger)在财报电话会议上表示,7nm芯片制造工艺将被用于2023年销售的芯片。 Pat Gelsinger表示:“我对7nm项目的恢复和进展感到高兴。我相信,我们2023年的大部分产品将会在内部制造。与此同时,考虑到产品组合的广度,我们也很可能在某些产品技术上扩大对外部芯片代工厂的使用。” Intel最新的芯片采用了14nm或10nm工艺,而台积电和三星等芯片代工厂目前采用5nm工艺。更精细的制造工艺可以在单位面积上容纳更多晶体管,从而提高效率,带来性能更强大的处理器。 来源:快科技

    时间:2021-01-25 关键词: Intel 台积电 GPU

  • Intel新芯片曝光:4nm工艺!

    据韩国经济日报报道,三星电子获得Intel的第一笔订单。 一位半导体行业消息人士称,Intel将其南桥芯片组的生产外包给三星。 该芯片组安装在电脑主板上,起到控制计算机输入输出操作的作用。 报道中还提到,Intel委托台积电生产图形处理器(GPU),后者计划使用4nm工艺制造Intel的GPU,计划从今年下半年开始生产。 据悉,三星也将从今年下半年开始,在其位于德克萨斯州奥斯汀的代工厂,生产Intel的南桥芯片组,月产能为15000片晶圆,相当于奥斯汀工厂产能的3%。 一位业界相关人士表示:“虽然这次三星未能拿下Intel的GPU订单,但是此次芯片代工订单仍然意义重大,因为三星为将来赢得高端芯片订单奠定了基础。” 昨天,Intel即将上任的CEO帕特·盖尔辛格(Pat Gelsinger)在财报电话会议上表示,7nm芯片制造工艺将被用于2023年销售的芯片。 Pat Gelsinger表示:“我对7nm项目的恢复和进展感到高兴。我相信,我们2023年的大部分产品将会在内部制造。与此同时,考虑到产品组合的广度,我们也很可能在某些产品技术上扩大对外部芯片代工厂的使用。” Intel最新的芯片采用了14nm或10nm工艺,而台积电和三星等芯片代工厂目前采用5nm工艺。更精细的制造工艺可以在单位面积上容纳更多晶体管,从而提高效率,带来性能更强大的处理器。 END 来源:快科技 版权归原作者所有,如有侵权,请联系删除。 ▍ 推荐阅读 缺芯少货、华为跌落……2021年智能手机市场或将迎来大变化! 突发!中芯国际被移除美国金融市场 中国构建全球首个星地量子通信网! 免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

    时间:2021-01-25 关键词: 半导体 芯片 英特尔 GPU

  • GPU和FPGA有何关系?谈一谈GPU和FPGA

    GPU和FPGA有何关系?谈一谈GPU和FPGA

    GPU是图形处理器,GPU在很多方面都有所应用,如手机、电脑等。前两篇文章中,小编对GPU和显卡的关系、GPU渲染等均有所介绍。为增进大家对GPU的认识,本文将对GPU和FPGA予以阐述,因为目前有很多人将二者进行对比。如果你对GPU具有兴趣,不妨继续往下阅读哦。 从峰值性能来说,GPU(10Tflops)远远高于FPGA(<1TFlops)。GPU上面成千上万个core同时跑在GHz的频率上还是非常壮观的,最新的GPU峰值性能可达10TFlops以上。GPU的架构经过仔细设计(例如使用深度流水线,reTIming等技巧),在电路实现上是基于标准单元库而在criTIcal path上可以用手工定制电路,甚至在必要的情形下可以让半导体fab依据设计需求微调工艺制程,因此可以让许多core同时跑在非常高的频率。相对而言,FPGA首先设计资源受到很大的限制,例如GPU如果想多加几个core只要增加芯片面积就行,但FPGA一旦你型号选定了逻辑资源上限就确定了(浮点运算在FPGA里会占用很多资源)。而且,FPGA里面的逻辑单元是基于SRAM-查找表,其性能会比GPU里面的标准逻辑单元差好多。最后,FPGA的布线资源也受限制(有些线必须要绕很远),不像GPU这样走ASIC flow可以随意布线,这也会限制性能。 除了芯片性能外,GPU相对于FPGA还有一个优势就是内存接口。GPU的内存接口(传统的GDDR,最近更是用上了HBM和HBM2)的带宽远好于FPGA的传统DDR接口,而众所周知服务器端机器学习算法需要频繁访问内存。 但是从灵活性来说,FPGA远好于GPU。FPGA可以根据特定的应用去编程硬件(例如如果应用里面的加法运算非常多就可以把大量的逻辑资源去实现加法器),但是GPU一旦设计完那就没法改动了,没法根据应用去调整硬件资源。目前机器学习大多数适合使用SIMD架构(即只需一条指令可以平行处理大量数据),因此用GPU很适合。但是有些应用是MISD(即单一数据需要用许多条指令平行处理,微软在2014年ISCApaper里面就举了一个MISD用于并行提取feature的例子),这种情况下用FPGA做一个MISD的架构就会比GPU有优势。不过FPGA的编程对于程序员来说并不容易,所以为了能让机器学习程序员能方便地使用FPGA往往还需要在FPGA公司提供的编译器基础上进行二次开发,这些都是只有大公司才能做。 FPGA实现的机器学习加速器在架构上可以根据特定应用优化所以比GPU有优势,但是GPU的运行速度(>1GHz)相比FPGA有优势(~200MHz)。 所以,对于平均性能,看的就是FPGA加速器架构上的优势是否能弥补运行速度上的劣势。如果FPGA上的架构优化可以带来相比GPU架构两到三个数量级的优势,那么FPGA在平均性能上会好于GPU。例如,百度在HotChips上发布的paper显示,GPU的平均性能相比FPGA在矩阵运算等标准batchdataSIMDbench上远好于FPGA;但是在处理服务器端的少量多次处理请求(即频繁请求但每次请求的数据量和计算量都不大)的场合下,平均性能会比GPU更好。 功耗方面,虽然GPU的功耗(200W)远大于FPGA的功耗(10W),但是如果要比较功耗应该比较在执行效率相同时需要的功耗。如果FPGA的架构优化能做到很好以致于一块FPGA的平均性能能接近一块GPU,那么FPGA方案的总功耗远小于GPU,散热问题可以大大减轻。反之,如果需要二十块FPGA才能实现一块GPU的平均性能,那么FPGA在功耗方面并没有优势。 能效比的比较也是类似,能效指的是完成程序执行消耗的能量,而能量消耗等于功耗乘以程序执行的时间。虽然GPU的功耗远大于FPGA的功耗,但是如果FPGA执行相同程序需要的时间比GPU长几十倍,那FPGA在能效比上就没有优势了;反之如果FPGA上实现的硬件架构优化得很适合特定的机器学习应用,执行算法所需的时间仅仅是GPU的几倍或甚至于接近GPU,那么FPGA的能效比就会比GPU强。 以上便是此次小编带来的“GPU”相关内容,通过本文,希望大家对GPU和FPGA具备一定的了解。如果你喜欢本文,不妨持续关注我们网站哦,小编将于后期带来更多精彩内容。最后,十分感谢大家的阅读,have a nice day!

    时间:2021-01-05 关键词: FPGA 指数 GPU

  • GPU为何可处图形工作?GPU和显卡有何区别?

    GPU为何可处图形工作?GPU和显卡有何区别?

    没有GPU,我们的图形界面将不复存在,由此可见GPU的重要性。在上篇文章中,小编对GPU渲染有所介绍。为增进大家对GPU的认识,本文将对GPU、CPU、显卡的区别加以阐述,并讲解为何GPU可处理图形工作。如果你对GPU具有兴趣,不妨继续往下阅读哦。 一、GPU与CPU GPU 是并行编程模型,和CPU的串行编程模型完全不同,导致很多CPU 上优秀的算法都无法直接映射到GPU 上,并且GPU的结构相当于共享存储式多处理结构,因此在GPU上设计的并行程序与CPU 上的串行程序具有很大的差异。 GPU主要采用立方环境的材质贴图、硬体T&L、顶点混合、凹凸的映射贴图和纹理压缩、双重纹理四像素256 位的渲染引擎等重要技术。由于图形渲染任务具有高度的并行性,因此GPU可以仅仅通过增加并行处理单元和存储器控制单元便可有效的提高处理能力和存储器带宽。 CPU是设计用来处理通用任务,因此具有复杂的控制单元; 而GPU主要用来处理计算性强而逻辑性不强的计算任务,GPU中可利用的处理单元可以更多的作为执行单元。 因此,相较于CPU,GPU在具备大量重复数据集运算和频繁内存访问等特点的应用场景中具有无可比拟的优势。 使用GPU有两种方式: 一种是开发的应用程序通过通用的图形库接口调用GPU设备; 另一种是GPU自身提供API编程接口,应用程序通过GPU提供的API编程接口直接调用GPU设备。 二、GPU 和显卡的关系 总的来说,显卡是显示卡的简称,显卡是由GPU、显存等等组成的。 GPU是图形处理器,一般GPU就是焊接在显卡上的, 大部分情况下,我们所说GPU就等于指显卡,但是实际情况是GPU是显示卡的“心脏”,是显卡的一个核心零部件,核心组成部分。它们是“寄生与被寄生”关系。GPU本身并不能单独工作,只有配合上附属电路和接口,才能工作。这时候,它就变成了显卡。 也就相当于CPU在电脑中的作用,它决定了该显卡的档次和大部分性能,现在还没有出现GPU插在主板上的,因为GPU功耗很高,背面电流过大,还是焊接更为可靠。 三、CPU和GPU区别 CPU和GPU之所以大不相同,是由于其设计目标的不同,它们分别针对了两种不同的应用场景。CPU需要很强的通用性来处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理。这些都使得CPU的内部结构异常复杂。而GPU面对的则是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境。 于是CPU和GPU就呈现出非常不同的架构(示意图): 图片来自nVidia CUDA文档。其中绿色的是计算单元,橙红色的是存储单元,橙黄色的是控制单元。 GPU采用了数量众多的计算单元和超长的流水线,但只有非常简单的控制逻辑并省去了Cache。而CPU不仅被Cache占据了大量空间,而且还有有复杂的控制逻辑和诸多优化电路,相比之下计算能力只是CPU很小的一部分 从上图可以看出: Cache, local memory: CPU 》 GPU Threads(线程数): GPU 》 CPU Registers: GPU 》 CPU 多寄存器可以支持非常多的Thread,thread需要用到register,thread数目大,register也必须得跟着很大才行。 SIMD Unit(单指令多数据流,以同步方式,在同一时间内执行同一条指令): GPU 》 CPU。 CPU 基于低延时的设计: CPU有强大的ALU(算术运算单元),它可以在很少的时钟周期内完成算术计算。 当今的CPU可以达到64bit 双精度。执行双精度浮点源算的加法和乘法只需要1~3个时钟周期。 CPU的时钟周期的频率是非常高的,达到1.532~3gigahertz(千兆HZ, 10的9次方)。 大的缓存也可以降低延时。保存很多的数据放在缓存里面,当需要访问的这些数据,只要在之前访问过的,如今直接在缓存里面取即可。 复杂的逻辑控制单元。当程序含有多个分支的时候,它通过提供分支预测的能力来降低延时。 数据转发。 当一些指令依赖前面的指令结果时,数据转发的逻辑控制单元决定这些指令在pipeline中的位置并且尽可能快的转发一个指令的结果给后续的指令。这些动作需要很多的对比电路单元和转发电路单元。 GPU是基于大的吞吐量设计。GPU的特点是有很多的ALU和很少的cache. 缓存的目的不是保存后面需要访问的数据的,这点和CPU不同,而是为thread提高服务的。如果有很多线程需要访问同一个相同的数据,缓存会合并这些访问,然后再去访问dram(因为需要访问的数据保存在dram中而不是cache里面),获取数据后cache会转发这个数据给对应的线程,这个时候是数据转发的角色。但是由于需要访问dram,自然会带来延时的问题。 GPU的控制单元(左边黄色区域块)可以把多个的访问合并成少的访问。 GPU的虽然有dram延时,却有非常多的ALU和非常多的thread. 为啦平衡内存延时的问题,我们可以中充分利用多的ALU的特性达到一个非常大的吞吐量的效果。尽可能多的分配多的Threads.通常来看GPU ALU会有非常重的pipeline就是因为这样。 所以与CPU擅长逻辑控制,串行的运算。和通用类型数据运算不同,GPU擅长的是大规模并发计算,这也正是密码破解等所需要的。所以GPU除了图像处理,也越来越多的参与到计算当中来。 GPU的工作大部分就是这样,计算量大,但没什么技术含量,而且要重复很多很多次。就像你有个工作需要算几亿次一百以内加减乘除一样,最好的办法就是雇上几十个小学生一起算,一人算一部分,反正这些计算也没什么技术含量,纯粹体力活而已。而CPU就像老教授,积分微分都会算,就是工资高,一个老教授资顶二十个小学生,你要是富士康你雇哪个?GPU就是这样,用很多简单的计算单元去完成大量的计算任务,纯粹的人海战术。这种策略基于一个前提,就是小学生A和小学生B的工作没有什么依赖性,是互相独立的。很多涉及到大量计算的问题基本都有这种特性,比如你说的破解密码,挖矿和很多图形学的计算。这些计算可以分解为多个相同的简单小任务,每个任务就可以分给一个小学生去做。但还有一些任务涉及到“流”的问题。比如你去相亲,双方看着顺眼才能继续发展。总不能你这边还没见面呢,那边找人把证都给领了。这种比较复杂的问题都是CPU来做的。 以上便是此次小编带来的“GPU”相关内容,通过本文,希望大家对GPU、CPU和显卡具备一定的了解。如果你喜欢本文,不妨持续关注我们网站哦!

    时间:2021-01-05 关键词: 显卡 指数 GPU

  • 什么是GPU渲染?GPU渲染有何优势?

    什么是GPU渲染?GPU渲染有何优势?

    GPU是图形处理器,在使用手机、电脑的过程中,我们都有与GPU打交道。为增进大家对GPU的认识,本文将对GPU渲染、GPU渲染和CPU渲染的区别以及GPU渲染的优势予以介绍。如果你对GPU具有兴趣,不妨继续往下阅读哦。 一、GPU渲染简介 1、GPU是图形处理器,启用GPU渲染加速,就是调用GPU加速图形的渲染和填充。 2、开启GPU渲染加速后可以提升图形加载速度,降低cpu处理器的负担,使系统运行更加流畅,但是也更加耗电。 GPU与CPU有何不同?两者之间的不同,体现在他们处理任务的不同方式上。 CPU,即中央处理器,由专为串行任务而优化的几个核心组成。GPU是由数以千计的更小、更高效的核心组成的大规模并行架构,这些核心专为同时处理多任务而设计。因此,在并行处理特定数据的时候,GPU比CPU高效很多。 二、GPU渲染优势 在图形渲染领域,不管是影视动画、建筑表现,还是CG广告,GPU凭借其专为图形加速而设计的架构和计算能力,为用户带来了一种更加高效的渲染解决方案,即GPU渲染解决方案。GPU渲染具有更快速度、更低成本的优势,而且GPU加速渲染的可用性也不断提高,越来越多搭上GPU渲染标签的高品质作品问世。这些发展趋势,让GPU渲染受到了国内外用户的普遍欢迎。 网友评论: ”如果说CPU像是一个工厂的经理,深思熟虑做出艰难的决定。那么GPU则更像是工厂里的一整个工人群,虽然他们不能做同类型的计算,但他们可以毫不费力地即刻处理许许多多的任务”。许多渲染任务是一种重复,这刚好是GPU Brute-force功能的强项。另外,你可以在一台电脑里装上若干个GPU,这意味着GPU系统可以快得多。在CG制作过程中,还有一个巨大的优势:GPU渲染快到可以实时反馈渲染效果,连喝一杯咖啡的时间都不需要就可以快速预览渲染效果,材质和照明变化尽在眼前。 目前可用的GPU渲染器① Redshift是世界第一款完全基于GPU加速的、有偏差的渲染器,也是现在市场接受度最高的一款GPU渲染器。Redshift采用近似法和插值技术,在样本相对较少的情况下实现无噪点的渲染结果,并在同等输出效果下,速度远超无偏差渲染器。从渲染效果来说,Redshift已经达到了GPU渲染的最高水准,可以渲染输出电影级品质的图像。 ② Blender Cycles是采用光线追踪算法的、可提供超写实渲染的无偏差渲染引擎。光线追踪算法的优点是设置参数简单,结果准确,能大大减少渲染时间。Cycles可以作为Blender的一部分,也可以作为独立渲染器,这对于大规模集群渲染和云服务商来说是一个完美的解决方案。 ③ NVIDIA Iray是一种高度互动而直观的物理效果渲染技术,可通过模拟真实世界光线与实际材质实现交互设计和创建极复杂的场景,从而生成照片般逼真的影像。不同于传统的制作渲染器,Iray可产生反映现实世界行为的结果。设计师并不需要具备计算机图形技术的专家级知识,即可快速取得照片般逼真的结果。 ④ OctaneRender是世界上第一个GPU加速最快、基于物理的无偏差渲染器。这意味着只使用计算机上的显卡,就可以获得超快的照片级逼真的渲染结果。Octane的并行计算能力,使得用户花更少的时间就能创造出令人惊叹的作品。 ⑤ V-Ray RT 是Chaos Group交互式渲染引擎,既可以利用CPU又可以GPU硬件加速,并实时追踪物体、灯光、材料等进行场景变化,自动更新动态着色预览图。 ⑥ Indigo Renderer是一款基于物理的全局光渲染器,它可以模拟光线的物理表现来实现接近完美的逼真画面。通过先进的物理摄像机模型、超真实的材质系统和Metropolis Light Transport对复杂光线环境的模拟,Indigo Renderer可以充分满足建筑和产品可视化方面对逼真度的高标准需求。⑦ LuxRender是一款基于物理的无偏差渲染器。LuxRender以当前最先进的算法为依据,根据物理方程式模拟光的流动,从而产生真实摄影的质量。 Renderbus目前支持Redshift for Maya和Blender Cycles两种渲染器。集群中一共部署了超过100张NVIDIA Tesla M40卡,每台服务器带有两张M40计算卡,并提供128GB系统内存,而CPU采用双Xeon E5-2650处理器。欢迎大家来Renderbus体验畅快淋漓的GPU云渲染! 关于强制进行GPU渲染,小科普一下: GPU强制渲染就是hwa(hard ware acceleraTIon硬件加速)的一种,能够得到更好的优化。GPU是图形渲染器的缩写,也被通俗的成为“显卡”,这一点我想大多数的机油都非常的清楚,显卡性能的高低直接就能够决定游戏或者软件的运行速度,这也就是很多机友为什么在选购电脑时会更加喜欢买大显存独立显卡的原因,因为这样的电脑,什么游戏都吃的开。 由于GPU处理图形比cpu好,所以GPU渲染应用的界面会更流畅,同时减轻cpu的负担,提高软件和桌面显示帧数。手机中的GPU和电脑中的GPU的功能是基本一样的,都是为了对图形、图像的处理,强制GPU渲染功能的加入就可以通过GPU对软件图形图像的处理来减轻CPU的负担,从而使得应用软件能够以更快的速度被处理,也就是说能够提速!不过坛子里很多的机油会问,长期开启强制GPU渲染会对手机有什么影响呢?这个问题是大家普遍关心的,对于普通的玩家来说,强制GPU渲染是一把双刃剑,有利有弊。 优点:第一是强制GPU加速功能会增加功耗,降低待机时间。 第二是,部分旧程序本身不支持GPU渲染,没有硬件加速hwa的就会出现崩溃。比较老的程序因为SDK版本低不支持GPU加速,或者开发时默认不开启GPU渲染,遇上GPU强制渲染就会出现问题。打开“强制进行GPU渲染”后,不支持GPU加速的软件也强制GPU渲染,这有可能会造成程序无响应、死机等兼容性问题。缺点:第一是强制GPU加速功能会增加功耗,降低待机时间。 第三是,部分旧程序本身不支持GPU渲染,没有硬件加速hwa的就会出现崩溃。比较老的程序因为SDK版本低不支持GPU加速,或者开发时默认不开启GPU渲染,遇上GPU强制渲染就会出现问题。打开“强制进行GPU渲染”后,不支持GPU加速的软件也强制GPU渲染,这有可能会造成程序无响应、死机等兼容性问题。 以上便是此次小编带来的“GPU”相关内容,通过本文,希望大家对GPU渲染、GPU渲染的优势具备一定的了解。如果你喜欢本文,不妨持续关注我们网站哦,小编将于后期带来更多精彩内容。最后,十分感谢大家的阅读,have a nice day!

    时间:2021-01-05 关键词: 指数 GPU渲染 GPU

  • 微星尊爵Prestige 14 Evo笔记本GPU测评,游戏实测!

    微星尊爵Prestige 14 Evo笔记本GPU测评,游戏实测!

    在这篇文章中,小编将对微星尊爵Prestige 14 Evo笔记本进行GPU性能测评。如果你对微星尊爵Prestige 14 Evo笔记本,或者是对它的实际性能具有兴趣,可以继续往下阅读哦。 一、微星尊爵Prestige 14 Evo笔记本基本情况介绍 作为一台轻薄本,微星尊爵Prestige 14 Evo笔记本在机身重量和厚度上控制得出彩。微星尊爵Prestige 14 Evo笔记本的“三围尺寸”为319mm(长)×219mm(宽)×15.9mm(厚),和其他大多数14英寸的笔记本(325mm×216.6mm×16.9mm)相比,该笔记本在机身长度上要短许多,厚度上也更薄。 配置方面,微星尊爵Prestige 14 Evo笔记本搭载了第11代智能英特尔酷睿i7-1185G7处理器,采用10nm制程工艺,4核心8线程,最高加速频率可达4.80GHz。除此以外,微星尊爵Prestige 14 Evo笔记本还集成目前最强的Intel® Iris® Xe Graphics核显,拥有96个执行单元,GPU频率高达1.3GHz。 微星尊爵Prestige 14 Evo笔记本与非Evo认证的Prestige 14相比,它的电池同样只有52Wh,但配备了一块功耗仅为1W的高色域屏幕;此外,微星尊爵Prestige 14 Evo笔记本也不再像标准版那样配备独立显卡,更低功耗的的Xe核显也能提供不错的图形性能。 二、微星尊爵Prestige 14 Evo笔记本测评 通过上面对微星尊爵Prestige 14 Evo笔记本的基本介绍,想必大家对这款微星笔记本都已经具备一定的了解。下面,小编将对微星尊爵Prestige 14 Evo笔记本进行GPU性能测评,具体测评内容如下。 GPU是图形处理器,一般GPU就是焊接在显卡上的,大部分情况下,我们所说GPU就等于指显卡,但是实际情况是GPU是显示卡的“心脏”,是显卡的一个核心零部件,核心组成部分。它们是“寄生与被寄生”关系。GPU本身并不能单独工作,只有配合上附属电路和接口,才能工作。这时候,它就变成了显卡。 微星尊爵Prestige 14 Evo笔记本锐炬Xe核芯显卡的GPU频率为400MHz,Boost频率为1350MHz。 从上面的3DMark的实测成绩可以看出,微星尊爵Prestige 14 Evo笔记本锐炬Xe核芯显卡的性能表现着实令人称赞。 《狙击精英V2重制版》是一款对配置要求不算高的游戏。小编将用它来测一测微星尊爵Prestige 14 Evo笔记本的真实游戏性能。 从《狙击精英V2重制版》测试结果来看,在1080p分辨率、较高画质下,微星尊爵Prestige 14 Evo笔记本基本上可以维持在40帧以上的帧率。这么看来,新一代锐炬Xe核芯显卡应对一些对配置需要不算高的游戏已经没问题了。 以上便是小编此次带来的有关微星尊爵Prestige 14 Evo笔记本的全部内容,十分感谢大家的耐心阅读,想要了解更多相关内容,或者更多精彩内容,请一定关注我们网站哦。

    时间:2020-12-17 关键词: 笔记本 微星 GPU

  • 宁畅AI服务器首次亮相GTC  定制方案释放GPU全面潜能

    宁畅AI服务器首次亮相GTC 定制方案释放GPU全面潜能

    12月15日至19日,NVIDA GTC中国以线上形式举办。宁畅信息产业(北京)有限公司(以下简称“宁畅”)受邀,以黄金赞助商身份首次携X640 G30等多款AI服务器产品亮相GTC。 图说:GTC中国线上大会宁畅展区 与会期间,宁畅方面表示伴随人工智能、云计算的高速发展,异构计算模式的AI服务器已成为IT行业重要算力支撑,为使GPU等核心部件性能得到充分发挥,宁畅凭借多年行业积累,通过定制模式满足用户对极致性能、稳定性等诸多需求。 多维保障GPU潜能全发挥 回顾2020年GPU领域,最重要莫过7nm 制程的NVIDIA A100 Tensor Core GPU发布,其强大的第三代Tensor Core、第三代NVLink技术,让大数据模型“推理”与“训练”效率显著提升。但要完全释放这颗业内顶级GPU潜力,则考验服务器厂商技术与设计硬实力。 宁畅工程师介绍,充分释放GPU性能第一步需要保证AI服务器有丰富扩展性。以宁畅AI服务器X640系列为例,在满配8个NVIDIA A100 /V100 Tensor Core GPU或16个NVIDIA T4 Tensor Core GPU后,X640仍有丰富PCI-E接口用于网络、存储和其他IO扩展。 丰富扩展设计,保障了定制化方案的灵活。此外,X640可通过硬件链路重新布局以实现灵活GPU 拓扑结构,并针对不同应用场景和模型进行GPU互联优化。这将极大便利用户“训练”大数据模型。 AI服务器散热也是用户关注重点。为保障全年24小时运行的AI服务器稳定,宁畅散热团队先后开发出“一体闭式循环液冷散热器”以及“分体式开环冷板液冷散热器”方案,让用户不惧长时间GPU满功率运行。 图说:宁畅闭式/开式液冷散热方案设计图示 通过定制化,宁畅液冷散热方案可满足GPU产品400-800W范围的散热需求,并可根据客户机房设备条件,选择不同模块化配套制冷机柜进行部署,从而解决客户由于液冷适配而进行外围改造的困扰。能效比方面,定制液冷方案,节省风扇能耗超60%,噪音降幅达50%以上,而成本也可控制在15-20%的提升。 除架构、硬件、散热等定制优化外,在运维、软件层面,宁畅可提供BIOS、BMC等诸多监管、运维接口定制。用户只需接上电源、网线,便可将批量的宁畅AI服务器纳入到现有的智能管理平台,第一时间让GPU发挥效能。 满足企业未来算力需求 除保障已上市GPU产品的性能全面发挥外,宁畅作为NVIDIA重要合作伙伴,可第一时间了解NVIDA前沿GPU技术与产品,依托多年来行业经验与技术积累,宁畅可预研采用新GPU架构并符合用户标准的定制服务器产品。 宁畅介绍,考虑成熟服务器产品的研发周期,通过定制预研模式用户不仅可在新品GPU产发售第一时间,批量获得基于此定制的AI服务器,还可提前与宁畅一起规划AI服务器技术路线,满足企业未来对特定AI场景的算力需求。 如今通过提供定制化服务,宁畅AI服务器已广泛应用于知名互联网、云计算公司,支撑语义识别、图像分析、机器翻译、训练推理等AI场景。在2020年10月,AI基准性能评测平台MLPerf官网显示,搭载NVIDIA T4 /A100 GPU的宁畅X640 G30 AI服务器,在ResNet、BERT、DLRM等基准测试中更是取得30项性能第一。

    时间:2020-12-16 关键词: IT AI服务器 GPU

首页  上一页  1 2 3 4 5 6 7 8 9 10 下一页 尾页
发布文章

技术子站