当前位置:首页 > 安培
  • 安培TITAN、RTX 3090规格曝光:50%性能飞跃不是梦

    安培TITAN、RTX 3090规格曝光:50%性能飞跃不是梦

    Ampere(安培)GPU已经公布,但让游戏粉丝们魂牵梦萦的RTX显卡还披着神秘面纱。 最近的一份爆料再次公布了RTX新卡的细节,包括第二代TITAN RTX、RTX 3090和RTX 3080。 其中第二代TITAN RTX基于GA102-400-A1核心,内建5376个CUDA,24GB显存,显存带宽17Gbps。 RTX 3090基于GA102-300-A1核心,内建5248个CUDA,12GB显存,显存速度21Gbps。 至于RTX 3080,则基于GA102-200-Kx-A1核心,内建4352个CUDA,10GB显存,19Gbps。 从显存速度来看,大概率都是GDDR6X显存,尽管目前尚未有厂商宣布投产。 从CUDA数量来看,RTX 3080增加了接近50%,NVIDIA早就许多安培耗费了4年的时间开发,是迄今最大的一次飞跃,性能水准必然可以好好期待下。 PS:VCZ称,实际上RTX显卡目前并未交付量产,最终到底命名如何,恐怕只有老黄本人知道。毕竟当年厂商都为GTX 880做出包装了,结果最终改名GTX 980,此乃前车之鉴。 视频会员活动汇总>> 爱奇艺视频会员限时优惠5折 优酷视频会员年卡5折购(99元) 腾讯视频会员年费99元/京东plus联合年卡128元 芒果TV 13个月 98元(6.16-6.22)

    时间:2020-07-03 关键词: NVIDIA 显卡 安培

  • NVIDIA揭秘:安培GPU开发了4年 826mm已达7nm极限

    NVIDIA揭秘:安培GPU开发了4年 826mm已达7nm极限

    NVIDIA的Ampere安培GPU发布就要1个月了,目前问世的主要是面向数据中心市场的A100核心,540亿晶体管、826mm2核心面积的它绝对是怪兽级GPU。NVIDIA表示,安培GPU开发花了他们4年时间,这么大的核心已经达到了台积电7nm极限了。 NVIDIA官方网站上今天发了一篇博客,GPU工程部门的联席主管Jonah Alben谈到了安培GPU的很多内幕信息。 根据Jonah Alben所说,在安培GPU的研发过程中,他需要团结硬件、软件及系统团队一切可能的力量,花费了4年时间才研发出这个怪兽,A100 GPU的性能是上一代GPU的20倍(注:只是AI性能,实际性能提升没有这么夸张。) A100 GPU使用了台积电的7nm工艺,集成了540亿晶体管,核心面积826mm2,这几乎是7nm工艺的极限水平了,Jonah Alben面临的挑战就是在这样的核心中集成更多的功能单元,否则就要重新开发GPU架构。 为了充分利用这些条件,NVIDIA在A100 GPU上设计了不少冗余单元,这也是现有的A100 GPU并非满血版的原因,完整的128组SMX、8196个流处理器中目前只启用了108组SMX单元、6912个CUDA核心,6组HBM2显存也只启用了5组HBM2,所以总容量为40GB,总位宽为5120-bit。 至于未来会不会解锁完整版核心,NVIDIA倒是没有表态,但从之前的情况来看,大概率会再推一波Super系列。

    时间:2020-06-29 关键词: GPU 7nm 安培 ncidia

  • NVIDIA:7nm安培是有史以来最强大的GPU

    NVIDIA:7nm安培是有史以来最强大的GPU

    在5月 14日的GTC演讲中,NVIDIA CEO黄仁勋正式宣布了新一代GPU—;—;Ampere安培,它使用了7nm工艺,号称性能是上代Voltra的20倍。日前NVIDIA CFO Colette Kress表示这是他们三年来的杰作,是NVDIA有史以来最强大的GPU。 在摩根斯坦利的全球技术大会商,NVIDIA公司的CFO Colette Kress远程出席了会议,并回答了分析师提问。 在谈到安培GPU时,Colette Kress表示这是他们过去三年来努力工作的成果,安培GPU目前已经量产,并且纳入了Q1财季(2-4月底)的营收中,她称安培架构是NVIDIA GPU有史以来飞跃最大的一次,远超其他GPU。 此外,Colette Kress还提到,安培GPU是7nm工艺中最大的,也就是性能最强的,没有之一,他们利用这次独特的机会推出了7nm安培GPU。 根据之前的报道,GA100芯片采用台积电第一代7nm(N7)工艺制造,核心面积达826平方毫米,相比上代12nm GV100仅增大了11平方毫米(0.13%),但晶体管数量从211亿个猛增至542亿个,多了接近1.6倍,同时功耗控制在400W(增加33%),可见新架构和新工艺的威力。

    时间:2020-06-19 关键词: 芯片 英伟达 台积电 7nm 安培

  • AMD、NVIDIA新一代显卡定了!9月一起见

    AMD、NVIDIA新一代显卡定了!9月一起见

    NVIDIA 7nm安培架构终于登场了,但是它面对的是数据中心市场,玩的是人工智能、深度学习、高性能计算,那么游戏卡呢? 据最新消息,AMD、NVIDIA都将在今年9月份发布下一代游戏卡GPU,而显卡厂商们会在第三季度逐步对现有产品进行降价、清库存,刺激市场需求。 在正常情况下,6月初的台北电脑展期间是Intel、AMD、NVIDIA揭示下一代产品的最佳时机,但今年受疫情影响,台北电脑展已经推迟到9月底,但不少板卡厂商已经退出,能不能顺利举行还悬而未决。 疫情无疑也打乱了各家厂商新品的发布节奏,AMD、NVIDIA的新卡自然无法逃脱,具体何时发布可能他们自己都还没有定下来,但此前普遍的猜测是9-10月份这个区间,也包括AMD Zen3架构的第四代锐龙处理器。 AMD新卡公版也要“煤气灶”了 本次曝料也没有给出更多细节,而之前有消息称,NVIDIA会从第三季度开始,每个季度发布一款安培架构的新卡,而且都是高端型号,取代现有的RTX 2080、RTX 2070系列,如无意外我们将陆续看到RTX 3080 Ti、RTX 3080、RTX 3070。 其中,RTX 3080 Ti基于GA102大核心,7nm工艺制造,5376个流处理器,核心频率可达2.2GHz,搭配384-bit GDDR6显存,频率18GHz,整卡功耗220-230W,4K游戏性能可提升40-50%。 AMD方面,官方早就说了Big Navi大核心的新卡就安排在今年,7nm工艺,RDNA 2架构,支持硬件光线追踪,目前已知有Navi 21、Navi 22、Navi 23三个版本,但如何命名不详—;—;这几年A卡改名太频繁了。

    时间:2020-06-09 关键词: TI NVIDIA AMD rtx 2 显卡 3080 navi rdna 安培

  • NVIDIA安培架构深入分析:显著增加云端AI芯片门槛

    NVIDIA安培架构深入分析:显著增加云端AI芯片门槛

    在近日的GTC上,NVIDIA发布了最新的安培架构,以及基于安培架构的A100 GPU。A100 GPU使用台积电7nm工艺实现,包含了542亿个晶体管,据官方消息可以实现比起上一代V100高7倍的性能。除了算力提升之外,NVIDIA还加入了GPU虚拟多实例(multi-Instance GPU,MIG)特性,可以让一块GPU虚拟化称为7个独立的GPU。 与安培架构同时公布的还有NVIDIA DGX A100超级计算机,该超算平台包含了8块A100 GPU,峰值算力可达10 PetaOPS。 在发布会上,NVIDIA对于算力做了非常多的渲染。然而,在我们看来,NVIDIA在算力之外的特性扩展将成为更重要的门槛,中国半导体业界想要研发自主的GPU也需要考虑这些算力之外的重要特性。 计算架构:改良式更新,前进步伐与预期相符 NVIDIA A100 GPU相比于前一代V100 GPU,其算力提升主要来源于以下几方面: 加入稀疏运算支持。这可能是A100 GPU运算架构上最大的革新了。具体来说,A100支持2:4的结构化稀疏,即在使用稀疏计算时,在矩阵中每四个元素就必须有两个或以上是0。通过稀疏运算,可以把性能提升两倍。 事实上,深度学习中使用稀疏运算的概念从提出至今已经有差不多5年了,到了今天NVIDIA终于把这个概念落地到了产品中,而且使用的是的2:4结构化稀疏,其两倍的加速可以说是比较保守的(与此相对,2018年寒武纪的AI加速器IP中就支持四倍稀疏加速)。 引入TF32数制。这主要针对训练计算。回顾人工智能训练计算的历程,最早普遍使用的是32位浮点数数制(FP32)。为了加速训练计算,从几年前开始NVIDIA开始支持16位的FP16数制,该数制的优点是速度较快,但是动态范围方面在一些应用中存在一些问题。 在A100中,NVIDIA为了解决FP16的问题,引入了TF32数制。TF32事实上不是32位数制,而是19位数制,其动态范围(exponent)与FP32相同都是8位,但其精度(mantissa)与FP16相同都是10位,相当于是FP32和FP16的融合。相比FP32,TF32可以实现8倍的吞吐量提升。 更强更多的流处理器(SM)。在A100中,每个流处理器的张量矩阵计算能力是V100的2倍,而在GPU中流处理器的数量相比V100则增加了30%。 更大的片上存储和更快的内存接口。A100的设计中,每个流处理器的L1缓存容量从V100的128KB增加到了192KB,L2 缓存则增加到了40MB,相比前一代增加了6.7倍。内存接口方面,A100的HBM2就恶口总贷款高达1555GB/s,相比前一代增加了1.7X。 总体来说,在计算架构方面,除了支持稀疏计算和引入TF32之外,其他的提升都属于可预计的常规提升,而稀疏计算和TF32在人工智能计算中也并非新概念。我们认为,这一代NVIDIA A100的算力性能提升属于渐进式改良,而非革命式提升。 GPU虚拟实例和互联:进一步加高竞争壁垒 我们认为,A100除了算力之外,其更重要的竞争壁垒提升来源于针对数据中心的GPU虚拟实例支持和互联方案。 在安培架构中,一个重要的新特性就是GPU虚拟实例MIG。随着云端数据中心GPU部署比例的提升,如何实现GPU虚拟化是一个重要任务,而这一点如果解决不好将会降低总体GPU利用率。 目前,在云服务中,用户申请的CPU和内存实例大多数情况下都是虚拟化的,当你申请到n个CPU核的时候,并不是说你包下了这块CPU芯片,而是很有可能在同一块CPU芯片上不同的核会分配给不同用户,而用户并不用去担心说他的CPU核都位于哪一块芯片上,主要用就行了。 粗略地说,这就是CPU虚拟化。GPU之前也有虚拟化,即同一个GPU可以给不同的程序同时使用,但是其内存访问模型并不如CPU虚拟化那么完善,因此在多用户的情况下,通常不会采用多个用户同时共享一块GPU的方法,而是把一块GPU分配给一个用户。 这样就带来了效率问题,例如用户A只需要用到一块GPU中一半的计算资源,而用户B的计算需要用到1.5块GPU,那么使用传统粗颗粒度解决方案就会造成用户A和B都占用了一块GPU,那么用户A事实上是浪费了GPU资源,而用户B的计算资源需求则没有很好地得到满足。 随着GPU应用到越来越多的场景中,不同场景算法对于GPU的利用率和需求都有不同,这样的话沿用之前的粗颗粒度方案一定会造成总体数据中心GPU利用率的问题。 为了解决这个问题,MIG应运而生。A100中的MIG支持把同一块GPU划分成7个独立实例,每个实例之间的内存空间访问互不干扰,这样就可以实现细颗粒度的GPU计算资源分配,从而在计算需求非常异质化的云计算场景增加资源利用效率。 诚然,目前MIG中支持的7个GPU虚拟实例划分或许还不算特别细颗粒度,但是却可以看作是走向虚拟化的重要里程碑。除了MIG之外,A100还在多芯片互联上做了改善。 首先,A100上包含了第三代NVLINK,主要用于同主机上GPU之间的互相通信,通信带宽相比V100增加了一倍到600GB/s。在GPU和CPU通信上,A100支持PCIe Gen4,相比上一代PCIe Gen3带宽也增加了一倍。此外,A100的互联还与Mellanox的解决方案做了深度集成,可以很好地支持基于以太网和InfiniBand的RDMA。 云端AI芯片进入门槛大大提升 我们认为,NVIDIA A100的发布再次拉开了与其他在人工智能云端领域芯片竞争对手的差距。从算力上来看,NVIDIA A100在BERT benchmark上的性能是T4的11倍,而初创公司中最成功的Habana(现已被Intel高价收购)在去年推出的新款Goya芯片在同一benchmark上的性能仅仅是T4的两倍左右,因此A100一举又占据了算力的高地。我们认为,NVIDIA在算力提升上面的主要优势在于其系统工程能力较强。 我们之前分析过,NVIDIA在A100中使用的计算单元架构创新实际上并不新鲜,在人工智能硬件领域已经存在了多年,而且之前也有不少初创公司尝试过类似的实现。然而,当芯片的规模上升了之后,其设计流程就不仅仅是逻辑设计问题,还需要考虑良率、散热等多方面因素,而这些看似底层的因素其实在最顶层的架构设计过程中就要考虑到—;—;换句话说,虽然其他人也能想到要用这些架构创新,但是因为各种问题就是没有办法实现A100这样能量产的巨型芯片,这其实也是NVIDIA多年积累的一个壁垒。 事实上,我们认为算力只是NVIDIA A100硬件竞争壁垒的一小部分,其更重要的壁垒还来自于互联、虚拟化等特性。互联和虚拟化特性都是云端数据中心场景中需要的重要需求,而这些需求的实现需要扎扎实实,一步一步的设计和积累。 如果说之前NVIDIA还没有引入虚拟化特性,云端AI加速芯片还是算力的比拼因此初创企业还有弯道超车机会的话,那么在A100之后我们认为其他和NVIDIA针对相同市场的云端AI加速芯片初创公司已经失去了这个机会,而必须要一步一步把虚拟化、RDMA等分布式计算必须的特性老老实实地实现在自己的芯片上,才有资格去和NVIDIA去正面交锋。 对于云端计算市场,其他芯片厂商另外一种可能的策略就是针对NVIDIA还无法顾及且GPU的SIMT架构无法很好覆盖的领域,例如FinTech的一些计算等等。我们预计在未来的几年内或许会出现更多这样的初创公司。 对于GPU国产化的启示:算力并非一切,对于分布式计算和虚拟化的支持也很重要 这次NVIDIA发布的A100 GPU对于用于云端数据中心的GPU国产化也有重要启示,即算力并非一切,对于分布式计算的支持和多用户虚拟化的支持可能更加重要。 在目前的云端高性能计算中,一大部分的任务会使用分布式计算。在分布式计算中,单卡GPU的算力只是基础,除了算力之外的IO也会成为决定性能的重要因素。这里的IO包括单机多卡之间的通信,GPU和CPU之间的通信,以及多台主机之间的通信等。 在NVIDIA的技术栈中,单机多卡通信有NvLink,多机通信有来自于新近收购的Mellanox的RDMA和Smart NIC技术,可以说在IO领域NVIDIA也是做到了全球最领先,这样才保证了云端GPU方案独步天下。与分布式计算息息相关的则是虚拟化支持。如前所述,GPU虚拟化将能带来云计算领域的GPU资源利用率大幅提升。 然而,除了利用率提升之外,虚拟化的访问模型还为分布式计算的软件栈提供了一个干净的接口,这样分布式系统的工程师可以不用关心GPU底层的实现细节,凭借虚拟化的概念就可以构建灵活的多用户使用模型和界面,从而在系统层面上为高效分布式系统提供了有力的支持和赋能。 我们认为,目前GPU虚拟化还处于早期阶段,未来我们将会看到NVIDIA以及其他的欧美厂商在这个方向的投入。对于国产GPU来说,我们一直在强调要构建一个好的生态,才能让国产GPU真正具有竞争力。这样的生态首先包括一个可扩展性良好的架构—;—;这就指向了IO这样的数据通信互联的支持;此外还需要有一个较友好容易上手的开发环境,能允许开发者在硬件基础上开发各种支持多用户的云端应用,虚拟化就是对多用户支持的核心组件。 我们认为,一个算力强大,但是对于分布式计算和虚拟化支持有限的GPU,对于国产生态而言还不如一个虽然算力较弱(例如只有NVIDIA一半甚至三分之一),但是在分布式和多用户场景有合理完整支持的GPU。而这两者恰恰需要一步一步扎实的积累,不能指望弯道超车。

    时间:2020-06-05 关键词: NVIDIA 国产 GPU 7nm 安培

  • NVIDIA CEO黄仁勋端上世界最大显卡!八路并行

    NVIDIA CEO黄仁勋端上世界最大显卡!八路并行

    北京时间5月14日本周四晚上21点,NVIDIA CEO黄仁勋将在线发表GTC 2020大会主题演讲,解读NVIDIA在人工智能、深度学习、自动驾驶、机器人、专业图形领域的最新突破。 当然,我们最关心的还是全新的安培(Ampere) GPU架构,几乎可以肯定首发产品是Tesla A100计算卡、DGX A100计算工作站。 现在,距离主题演讲还有两天时间,NVIDIA做了一次非常特别的预热。在一段简短的视频中,NVIDIA CEO黄仁勋从烤箱中端出了“世界上最大的显卡”,并称已经酝酿了好长一段时间。 老黄端出的自然就是DGX A100,可以明显看到八个整齐排列的散热器,对应八颗Tesla A100 GPU,而从老黄吃力的动作看,这套系统相当沉重。 老黄所说的世界最大指的显然不是整体体积,更像是在说芯片的庞大规模,当然尽管用了显卡(graphic card)的说法,确切地讲其实是计算卡。 而大家最想要的RTX 3080 Ti显卡,架构说法不一,有的指也是安培架构的GA102核心,也有的指是另外一套霍珀(Hopper)架构,预计5736个流处理器,7nm工艺,核心频率可达2.2GHz,搭配384-bit 18GHz GDDR6显存,功耗220-230W,4K游戏性能可比RTX 2080 Ti普遍提升多达40-50%。

    时间:2020-06-03 关键词: NVIDIA ceo 显卡 黄仁勋 计算卡 安培 dgxa100 teslaa100

  • NVIDIA 7nm安培首次进驻超算成就欧洲第一:AMD 7nm霄龙作陪

    NVIDIA 7nm安培首次进驻超算成就欧洲第一:AMD 7nm霄龙作陪

    NVIDIA日前正式揭晓了采用7nm工艺的全新一代GPU架构“安培”(Ampere),主打高性能计算,很快就落地开花了。 Atos已经宣布了最新一代超算系统“BullSequana X2415”,首次集成NVIDIA安培架构的A100 GPU,而与之搭档的是同样7nm工艺的AMD霄龙处理器。 这套新的服务器基于NVIDIA HGX-A100模块,每块主板搭载四颗NVIDIA A100 GPU,通过第三代NVLink总线互连,与之搭配的则是两颗AMD EPYC霄龙处理器,还有四个NVIDIA Mellanox InfiniBand网络端口。 AMD霄龙处理器的型号未披露,不出意外应该是定制的高性能版霄龙7H12,64核心128线程,基准频率提高到2.6GHz,最高加速频率3.3GHz,三级缓存256MB,热设计功耗280W。 德国于利希研究中心的JUWELS BullSequana超级计算系统将会率先部署,预计今年夏天就能上线投用,峰值计算能力可达70PFlops,成为欧洲最强的超算。 按照2019年11月的全球超算TOP500榜单,这样的算力在全世界也能排第五位,而排名第二的美国Sierra超算采用了NVIDIA GV100 GPU。

    时间:2020-06-03 关键词: NVIDIA AMD 超级计算机 欧洲 7nm 霄龙 安培

  • 黄仁勋亲口确认新一代GeForce显卡:安培架构正式上位!

    黄仁勋亲口确认新一代GeForce显卡:安培架构正式上位!

    在今晚21点的GTC大会前,先是EETimes偷跑了基于Tesla A100的DGX A100计算平台,7nm安培大核心有着Volta V100 2.6倍的晶体管规模(540亿)、7nm工艺,AI算力提升了20倍,双精度性能2.5倍提升。 现在,CEO黄仁勋亲自出马,在会前专访中确认,Ampere将是NVDIA的新一代GPU核心,取代Turing和Volta。换言之,NVIDIA新一代图形产品只有这一套核心,覆盖GeForce、Quadro、Tesla等,当然,老黄指出,虽然架构重叠,但不同产品的GPU配置会有所不同。 图为Tesla A100 不过,今晚的GTC大会上,老黄应该不会披露很多下一代GeForce显卡主要信息,此前传言,它们要等到8、9月份才能陆续揭晓。 最新的爆料指出,RTX 3080 Ti基于GA102核心打造,预计5736个流处理器,7nm工艺,核心频率可达2.2GHz,搭配384-bit 18GHz GDDR6显存,功耗220-230W,4K游戏性能可比RTX 2080 Ti普遍提升多达40-50%。

    时间:2020-06-03 关键词: NVIDIA 显卡 安培

  • NVIDIA发布7nm安培:540亿晶体管核弹、GPU史上最大性能飞跃

    NVIDIA发布7nm安培:540亿晶体管核弹、GPU史上最大性能飞跃

    5月14日晚,在GTC 2020线上发布会上,NVIDIA干脆利落地在几分钟内就放出了老黄的演讲视频,正式推出了安培(Ampere)架构GPU,7nm工艺,540亿晶体管,20倍AI算力,5大技术创新,总之新核弹来了。 目前NVIDIA还没有正式公开安培GPU的详细架构细节,但是跟上次的图灵GPU一样,黄仁勋表示这是NVIDIA八代GPU史上最大的一次性能飞跃。 首款基于安培GPU的产品是Tesla A100加速卡,根据NVIDIA所说,它带来了5大技术创新: 1、 全新安培GPU架构,540亿晶体管,世界上最大的7nm处理器。 2、 第三代Tensor Core AI核心,支持TF32运算,无需任何代码改变就可以让AI性能提升20倍,还支持FP64双精度运算,与HPC应用相比带来了2.5倍的性能。 3、 Multi-instance GPU多实例GPU:简称MIG,这是一项创新技术,可以将一个GPU划分为七个独立的GPU,针对不同的目标提供不同的运算,最大化提高计算效率。 4、 NVLink 3.0:新一代GPU总线的性能翻倍,可以在服务器应用中提供更有效的性能扩展。 5、 结构稀疏性:这项新技术利用了AI运算中固有的稀疏性实现了性能翻倍。 这5大技术创新使得Tesla A100加速卡成为苛刻工作负载的理想选择,不仅可以用于AI推理、AI训练,还可以用于科学仿真、AI对话、基因组、高性能数据分析、地震建模及财务计算等等。 与此同时,NVIDIA还宣布了基于Tesla A100的DGX A100超算,有8路Tesla A100加速卡,性能高达5PFLOPS,阿里云、AWS云、谷歌云、微软Azure、甲骨文及腾讯云都将推出基于DGX A100的云服务。 目前DGX A100发布之后就立即上市了,跟当年的Tesla V100完全不同,美国、德国的多个实验室及超算中心已经开始使用Tesla A100作为超算解决方案了。 PS:今晚的视频中,老黄的头发已经白了一半,作为目前全球最强GPU的掌门人,7nm安培GPU显然花费了NV公司不少心血,目前揭开的还只是计算方面的,RTX游戏卡还没公布多少信息。 延伸阅读: 7nm安培GPU详解:400W功耗、40GB HBM2、826mm2怪兽出炉 Tesla A100果然割了一刀 7nm安培完整版128组SMX单元:再强20% 141万元!NVIDIA发布安培个人超算:八路GPU、双路AMD 64核心

    时间:2020-06-03 关键词: NVIDIA GPU 7nm 核弹 安培

  • 141万元!NVIDIA发布安培个人超算:八路GPU、双路AMD 64核心

    141万元!NVIDIA发布安培个人超算:八路GPU、双路AMD 64核心

    5月14日晚间,NVIDIA终于发布了期待已久的全新“安培”(Ampere)架构,又一个核弹级的GPU芯片,当然它面向的不是PC游戏市场,而是人工智能、深度学习、高性能计算、大数据等等尖端领域。 宣布新架构的同时,NVIDIA也发布了相应的第三代工作站“DGX A100”,或者按照NVIDIA的说法叫做个人超级计算机,可以支持在桌面端进行AI研究,并扩展到云端。 DGX A100内部配备了八颗安培架构的Tesla A100 GPU,每一颗整合40GB HBM2高带宽显存,总容量达320GB。 每颗GPU均支持多达12路的NVLink互连总线,GPU-GPU带宽高达600GB/s,可保证八颗GPU彼此完全互连,同时还有6颗NVIDIA NVSwitch芯片,双向带宽高达4.8TB/s。 不过从示意图上可以看出,每颗GPU周围其实有六颗HBM2显存芯片,很显然有一颗没有启用,剩下的五颗单颗容量8GB从而组成40GB。这意味着,A100核心现在应该也是屏蔽了六分之一的规模。 网络方面配备了刚完成收购的Mellanox的解决方案,包括八颗单端口ConnectX-6 VPI用于聚类,峰值性能200GB/s,以及一颗双端口ConnectX-6 VPI用于数据与存储网络。 有趣的是,搭配的CPU处理器这次抛弃了Intel至强,改而使用两颗AMD二代霄龙(Rome),且是顶级的64核心型号,同时搭配1TB DDR4内存、15TB PCIe 4.0 NVMe SSD固态硬盘。 黄仁勋称这是“世界上最大的显卡”,不算外壳单单是其中的计算板加散热器就有45斤的重量,集成超过3万个不同组件,钻孔数量多达100万个,连接电路长达1公里。 NVIDIA宣称,DGX A100系统单节点的峰值性能为:INT8 10 PetaOPS(每秒1亿亿次整数运算)、FP16 5 PFlops(每秒5千万亿次半精度浮点运算)、TF32 2.5 PFlops(每秒2.5千万亿次运算)、FP64 156 TFlops(每秒156万亿次双精度浮点运算)。 相比于高端CPU服务器,它的AI计算性能要高出150倍,内存带宽高出40倍,IO带宽也高出40倍。 NVIDIA DGX A100个人超算现已上市,售价19.9万美元,约合人民币141万元。 该方案的云服务客户有阿里云、亚马逊AWS、百度云、Google Cloud、微软Azure、甲骨文、腾讯云,系统级客户有AtoS、Cray、戴尔、富士通、技嘉、HPE、浪潮、联想、广达、SuperMicro。

    时间:2020-06-03 关键词: NVIDIA GPU a100 工作站 安培 dgx 个人超级计算机

  • Tesla A100果然割了一刀 7nm安培完整版128组SMX单元:再强20%

    Tesla A100果然割了一刀 7nm安培完整版128组SMX单元:再强20%

    今晚NVIDIA发布了7nm安培GPU,首发的是Tesla A100加速卡,工艺及架构全面升级,很好很强大。不过有一点大家可能猜到了,6912个CUDA核心的Tesla A100并不是完整版的,NVIDIA依然在首发产品了留了一刀。 之前的架构解析中,Tesla A100加速卡目前所用的核心有6912个CUDA核心,算下来是108组SMX单元,VC网站的结构对比更加清晰,如下所示: 尽管现在的6912个CUDA核心相比GV100的5120个CUDA核心已经提升了35%,但它依然不是GA100大核心的完整体,这差不多也是NVIDIA每次发布新卡的保留节目了,首发产品要割一刀。 从官方给出的结构来看,GA100核心完整版是128组SMX单元,也就是8192个CUDA核心,比现在差不多要多出15-20%的规模,后续的潜力很大。 至于为什么首发的Tesla A100核心这么保守,可能是NVIDIA希望后续再出更高端的产品,也有可能跟现在的产品功耗已经达到400W有关,为此频率都降低到了1400MHz了,比GV100核心的1.5-1.6GHz还要低。 完整版的GA100大核心不知道什么时候解锁,后续优化了功耗之后,GA100大核心的性能恐怕要再上一层楼了,big Navi大核心不知道能不能追上了。

    时间:2020-06-02 关键词: NVIDIA GPU 7nm 安培

  • 老黄确认:NVIDIA 7nm安培显卡花落台积电

    老黄确认:NVIDIA 7nm安培显卡花落台积电

    5月15日消息,英伟达宣布首款基于Ampere(安培)架构的GPU NVIDIA A100已全面投产并已向全球客户交付。 媒体称,虽然近期市场传出新款GPU可能由三星晶圆代工抢下订单,但英伟达CEO黄仁勋日前证实,Ampere架构GPU采用台积电客制化7nm先进制程,部份高端GPU亦采用台积电CoWoS(基板上晶圆上晶片封装)技术。 供应链消息称,英伟达第二季度开始大举拉高7nm Ampere架构GPU投片量,预计下半年对7nm产能需求会更高,台积电直接受惠且7nm产能利用率维持满载。 新款GPU后段封装主要由日月光投控旗下硅品承接,测试业务则交由京元电负责,旺硅拿下晶圆探针卡及测试板订单,至于GPU封装用ABF基板供应商则包括欣兴及景硕。 英伟达A100 GPU五大关键性创新 英伟达Ampere架构–A100的核心是NVIDIA Ampere GPU架构,该架构包含超过540亿个晶体管,这使其成为全球最大的7纳米处理器。 具有TF32的第三代Tensor Core核心 – NVIDIA广泛采用的Tensor Core核心现在已变得更加灵活、快速且易于使用。其功能经过扩展后加入了专为AI开发的全新TF32,它能在无需更改任何代码的情况下,使FP32精度下的AI性能提高多达20倍。此外,Tensor Core核心现在支持FP64精度,相比于前代,其为HPC应用所提供的计算力比之前提高了多达2.5倍。 多实例GPU – MIG,一种全新技术功能,可将单个A100 GPU分割为多达七个独立的GPU,为不同规模的工作提供不同的计算力,以此实现最佳利用率和投资回报率的最大化。 第三代英伟达 NVLink –使GPU之间的高速联接增加至原来的两倍,实现服务器的高效性能扩展。 结构化稀疏–这种全新效率技术利用AI数学固有的稀疏性,使性能提升了一倍。 英伟达表示,全球众多云服务供应商和系统构建商计划将A100 GPU集成到其产品中,其中包括:阿里云、AWS、Atos、百度智能云、思科、Dell Technologies、富士通、技嘉科技、Google Cloud、新华三、HPE、浪潮、联想、Microsoft Azure、甲骨文、Quanta/QCT、Supermicro和腾讯云。

    时间:2020-05-29 关键词: NVIDIA 台积电 7nm 安培

  • 7nm安培GPU详解:400W功耗、40GB HBM2、826mm2怪兽出炉

    7nm安培GPU详解:400W功耗、40GB HBM2、826mm2怪兽出炉

    等了很久,今晚NVIDIA正式发布了7nm安培GPU,号称是8代GPU史上最大的性能飞跃。不过官方并没有公布安培GPU的技术细节,Anandtech网站倒是给出了一份详细的介绍。 这次的GTC 2020大会演讲中,NVIDIA CEO黄仁勋主要谈的就是HPC计算、AI人工智能等方面的内容,目前推出的A100大核心也是针对这个领域的,与之相比的是3年前发布的Volta架构V100核心,很多东西跟RTX 3080 Ti游戏卡会不一样,大家不用纠结。 首先来说大方面的,V100核心使用的是12nm Volta架构,211亿晶体管,核心面积815mm2,而A100核心是台积电7N工艺,应该也是定制版的7nm工艺,826mm2,542亿晶体管,同样是核弹级别的。 V100核心拥有80组SM单元,5120个CUDA核心,SXM2/3架构,而A100核心是108组SM单元,SXM4架构,6912个CUDA核心。 AI方面是变化最大的,相比Volta架构的640个Tensor Core,A100核心的Tensor Core减少到了432个,但是性能大幅增强,支持全新的TF32运算,浮点性能156TFLOPS,同时INT8浮点性能624TOPS,FP16性能312TFLOPS。 常规的FP32、FP64性能提升倒是不算明显,从V100核心的15.7.、7.8TFLOPS提升到了19.5、9.7TFLOPS。 频率方面,A100核心实际上还倒退了,从V100的1530MHz降低到了1.41GHz左右,毕竟核心规模实在太大,功耗已经飙到了400W,比V100的300/350W功耗高出不少。 显存方面,A100配备的也是HBM2显存,频率从1.75Gbps提升到了2.4Gbps,位宽5120bit,相比V100的4096bit增加了1024bit,容量也从16/32GB增加到了40GB。 不过HBM2的配置略显奇怪,增加1024bit理论上应该多1组HBM2,但从核心图上看又是6组HBM2显存,或许是2组512bit的?保不准以后还会有完整版A100核心。 不过HBM2显存位宽、频率双双提升的后果就是,A100核心寸带宽达到了1.6TB/s,远高于V100的900GB/s,比AMD的Radeon VII显卡的1TB/s带宽还要高。 最后,NVLink技术也升级到了3.0版,带宽从300GB/s提升到了600GB/s,适合服务器领域多卡互联,不过未来应该还会有PCIe版的。

    时间:2020-05-28 关键词: NVIDIA GPU 7nm 安培

  • 首次!NVIDIA安培架构全面支持PCIe 4.0

    首次!NVIDIA安培架构全面支持PCIe 4.0

    AMD平台已经全面支持PCIe 4.0,从消费级到数据中心,显卡、处理器、主板芯片组全都有。 Intel虽然一开始口头拒绝,但身体也很诚实,除了在FPGA等领域已支持PCIe 4.0,第二代傲腾存储、未来的消费级平台也会导入。 NVIDIA方面,黄仁勋刚刚揭晓的新一代“安培”(Ampere)架构,主攻AI、数据中心、高性能计算等市场领域,也首次引入了PCIe 4.0。 对于支持PCIe 4.0,黄仁勋在演讲中并未提及,官方资料也非常低调,仅仅在安培的架构图上标注了“PCIe 4.0主控界面”的字样,同时在Tesla A100计算卡的规格表里列上了PCIe 4.0 64GB/s。 除了PCIe 4.0,Tesla A100计算卡还支持第三代NVLink互连总线,每颗GPU对外多达12路,带宽也高达600GB/s,相比之下第二代是6路、300GB/s,第一代只有4路、160GB/s。 此外,NVIDIA同时发布的新一代工作站/个人超算DGX A100,还集成了15TB PCIe 4.0 NVMe SSD固态硬盘,但未披露具体厂商和品牌。 那么,至于未来的RTX 30系列游戏卡是否也支持PCIe 4.0,目前暂无确切消息,但没有理由不支持。

    时间:2020-05-16 关键词: pcie 4.0 英伟达 显卡 安培

  • 全新安培GPU架构来了!NVIDIA 5月14日发布黄仁勋演讲

    全新安培GPU架构来了!NVIDIA 5月14日发布黄仁勋演讲

    受新冠疫情影响,NVIDIA一年一度的图形技术大会GTC 2020一再推迟,最终无奈取消,改为新闻稿方式播出,万众期待的全新GPU架构“安培”(Ampere)也未能如期问世。 今天,NVIDIA官方宣布,将于北京时间5月14日21点,以录播的方式,放出创始人兼CEO黄仁勋的GTC 2020主题演讲。 NVIDIA表示,在这场原定于3月23日的演讲中,黄仁勋会介绍公司在AI人工智能、HPC高性能计算、深度学习、数据科学、自动驾驶、医疗健康、机器人、专业图形等方面的创新。 更具体的细节现在肯定不会披露,但值得注意的是,NVIDIA在新闻稿副标题中用了“Get Amped”一词,可以理解为沸腾起来,但这很显然是在暗指新的Ampere架构,Amp也正好就是电流单位。 所以,至此可以99.9%地确认,黄仁勋会在演讲中介绍下一代安培GPU架构,它将取代已经诞生接近两年的“伏特”(Volta)架构,成为NVIDIA在专业图形与计算领域的新基石。 按照惯例,这次宣布的新一代计算卡应该会命名为Tesla A100。 需要注意的是,伏特架构当年就是专门为专业用途设计的,游戏卡上则是帕斯卡、图灵,这一次的安培架构可能也会类似,下一代游戏卡会有另一个新架构。

    时间:2020-05-14 关键词: NVIDIA GPU tesla 黄仁勋 ampere 安培

  • “安培”GPU 来了!黄仁勋 5 月 14 日发表主题演讲

    “安培”GPU 来了!黄仁勋 5 月 14 日发表主题演讲

    4月24日消息 刚刚,英伟达发布新闻稿,宣布黄仁勋将在5月14日举行GTC 2020主题演讲,新闻稿开头的“Get Amped”也暗示此次演讲将介绍“安培”(Ampere)架构的相关信息。英伟达宣布,在录制的主题演讲中,英伟达CEO黄仁勋将重点介绍该公司在人工智能、高性能计算、数据科学、自动机器、医疗保健和图形方面的最新创新。参加者可以在www.youtube.com/nvidia上观看主题演讲。曾报道,外媒的消息显示,曝光的英伟达安培架构GPU有GA102、GA103、GA104、GA106和GA107 5款,配置最高的是GA102。报道还称英伟达新款GPU将全部支持RTX(实时光线跟踪),这意味着英伟达在安培架构上对RT核心设计进行升级,使其在性能较弱的显卡中也能实现光线追踪的效果。

    时间:2020-05-12 关键词: 英伟达 黄仁勋 安培

  • NVIDIA叫停GTC大会新闻发布:“安培”还得等

    NVIDIA叫停GTC大会新闻发布:“安培”还得等

    全球蔓延的新冠疫情打乱了各种日常节奏,大量的发布会纷纷延期或取消。NVIDIA GTC 2020图形开发者大会更是一波三折、命运多舛。 GTC 2020原计划在3月22-26日举行,随着疫情蔓延被转移到线上,但很快,NVIDIA宣布取消发布会,改为从3月23日起陆续发布相关新闻。 不过现在,NVIDIA又宣布,出于安全考虑,暂时停止分享GTC 2020的相关新闻。 至此,原本预计会在本次大会上公布的下一代“安培”(Ampere)核心正式跳票。 按照惯例,NVIDIA会趁此大会公布基于新核心的新一代Tesla计算卡,甚至可能还有Quadro专业卡,但不会这么快就宣布新一代游戏卡,而随着节奏完全凌乱,RTX 3080 Ti不管原来准备的时间节点如何,都势必会顺应推迟。 NVIDIA声明原文如下: 我们本有激动人心的产品和消息与大家分享,但现在还不是时候。我们将暂停分享GTC新闻。 这样,紧紧跟随我们的员工、伙伴、媒体、分析师,以及全球的客户,都可以专注于保证安全,遏制病毒传播。 研究人员和开发人员早就准备了精彩的演讲,我们仍会适时公布这些丰富的内容。 眼下,我们要专注于关心我们的家庭、朋友、邻居。我们的员工正在家远程办公,暂时无需工作的小时工也会获得全额工资。 大家都要确保安全。我们将携手渡过难关!

    时间:2020-04-30 关键词: TI NVIDIA rtx tesla 大会 3080 安培 gtc

  • GPU架构领先对手2年多 NVIDIA:12nm工艺会升级的

    GPU架构领先对手2年多 NVIDIA:12nm工艺会升级的

    随着GTC 2020大会事实上的取消,NVIDIA今年3月份发布下一代安培“Ampere”显卡的可能性基本没了。在这个问题上,NVIDIA倒也不着急,高级副总Jeff Fisher表示他们的GPU架构领先对手2年多。 在日前的电话会议上,NVIDIA GeForce业务高级副总Jeff Fisher再次谈到了他们在游戏卡市场上的情况。 在他看来,GPU架构要比工艺更重要,尽管NVIDIA当前的显卡还是12nm工艺制造的,但是他们比对手的7nm显卡已经领先了两年多时间。 考虑到2018年8月份NVIDIA推出了12nm图灵GPU,迄今为止依然是唯一支持硬件光追等技术的显卡,而且性能、能效依然保持优势,友商即便今年推出big Navi旗舰卡,此前抱在性能也不过是RTX 2080 Ti级别的。 站在NVIDIA的角度上来看,似乎真的没必要急着升级工艺,现在的差距都够对手追的了。 不过Jeff Fisher倒也没把话说死,毕竟随着对手再使用7nm+工艺,双边的工艺差距是在拉大的,NVIDIA也得升级了,他提到12nm工艺迟早是会放弃的。 当然,什么时候放弃,下一代安培到底使用什么工艺就不会提了,毕竟还没发布。 结合之前的爆料来看,NVIDIA的安培GPU全面升级7nm的可能性不大,应该是GA100大核心才有可能上7nm工艺,主要用于数据中心等市场。 GA102及以下的核心可能会是三星改进的8nm LPP工艺,毕竟去年的DRIVE AGX Orin芯片就是8nm LPP工艺代工。

    时间:2020-04-24 关键词: NVIDIA GPU 7nm 12nm 安培

  • RTX 3080 Ti安全了 NVIDIA不会取消GTC 2020大会:加强消毒

    RTX 3080 Ti安全了 NVIDIA不会取消GTC 2020大会:加强消毒

    最近由于疫情的影响,一些大型展会、会议都在取消或者推迟,最严重的当然是MWC 2020展会取消。3月底还有NVIDIA的GTC大会,不过官方表示还在路上。 随着美国形势的变化,3月份开始的一些大会也有很多都取消了,比如FB的F8大会取消了,GDC游戏开发者也延期了,新的时间还没确定。 NVIDIA的GTC 2020大会将在3月22日到26日举行,目前NVIDIA的表态是不会取消,会议准备工作还在进行中。 不过为了加强防护,NVIDIA表示他们已经按照WHO的标准对场馆进行全面消毒,人流较多的区域每天消毒,会议室、门把手、扶梯等接触较多的地方还会多次消毒。 此外,在整个会议中心还会大量增加洗手液。 不过NVIDIA没提到戴口罩的事,美国的观点现在是勤洗手,不建议一般人戴口罩。 GTC大会主要是面向开发者,跟游戏玩家其实关系不大,但是这次的重点在于NVIDIA是否会发布7nm Ampere安培显卡,RTX 3080 Ti是时候露面了,官方之前暗示这次的GTC大会不会让人失望。 当然,即便发布了全新架构的7nm安培,首发的很可能也是用于数据中心的GA100大核心,7nm游戏显卡估计要到下半年才能真正上市。

    时间:2020-04-22 关键词: TI NVIDIA 2020 rtx 显卡 7nm 大会 3080 安培 gtc

  • NVIDIA超级大核心曝光:7552个流处理器的RTX 3080 Ti有希望

    NVIDIA超级大核心曝光:7552个流处理器的RTX 3080 Ti有希望

    这段时间,有关NVIDIA、AMD各自下一代旗舰级GPU核心的曝料不断,但都是各种传闻,让人捉摸不定。现在,我们从GeekBench 5测试数据库里挖出了NVIDIA的两个新核心,规模都相当庞大。 其中一个显示有118个计算单元(NVIDIA的叫法是SM流式多处理器),假如每组延续64个流处理器(CUDA核心)的配置,总数就是7552个,同时核心频率为1.11GHz,搭配显存24GB(检测值23.8GB)。 另一个则是108个计算单元,对应6912个流处理器,核心频率1.01GHz,搭配显存48GB(检测值46.8GB)。 很显然,它们都是NVIDIA的下一代核心,或许就是传说中的“Ampere”(安培),7nm工艺制造,甚至有可能是更下一代的“Hopper”(赫柏)。 NVIDIA也做过双架构核心并行的事儿,比如Tesla V100系列是Volta(伏特)核心,仅供专业市场,GeForce RTX 20、GTX 16系列则是Turing(图灵)核心,仅供消费级市场。 由于缺乏其他佐证,目前还无法确认这两个核心属于计算专业卡Tesla、图形专业卡Quadro、半专业卡Titan、游戏卡GeForce之中的哪个序列,按照NVIDIA的产品研发和发布规律来说Tesla的可能性很大,比如Tesla A100,但也不排除GeForce,比如RTX 3080 Ti。 如果118个单元、7552个流处理器的大核心是RTX 3080 Ti,那么规模要比现在68个单元、4352个流处理器的RTX 2080 Ti增大了足有74%。 而且,这极有可能还不是完整版核心,128个单元才是最合理的全部实力,那样就是8192个流处理器,相比于RTX 2080 Ti大了88%,即便相比72个单元4608个流处理器、完整TU102核心的Titan RTX也大了78%。 24GB显存如果是游戏卡的GDDR6,对比RTX 2080 Ti可就翻了一番还多,而如果是专业卡的HBM2,对比现在Tesla V100 16/32GB也只算是个低配版。 108个单元、6912个流处理器的核心则肯定不是RTX 3080,一来这样会比RTX 2080的规模增大135%,非常离谱,二来显存容量高达48GB,绝无可能用于游戏卡,只能是Tesla乃至是Quadro专业卡。 至于1.01GHz、1.11GHz的低频率,这很容易理解,都是早期的工程样品而已,分别出现在去年10月底和11月底。 核心规模猛增的同时,即便在如此低频率下的性能也相当凶猛,118单元、108单元的OpenCL计算跑分分别为184096、141654,作为参考Tesla V100 154606、Quadro GV100 142837、Titan RTX 132804。 Tesla V100 不管这两个核心是什么身份,AMD都会面临巨大考验,尤其是游戏卡方面,传说中基于RDNA2架构、Big Navi大核心的下代游戏卡很可能只有80组计算单元、5120个流处理器。 代号Arcturus(大角星)的下代计算卡Radeon Instinct MI100倒是据说会在Vega核心基础上翻番,拥有128个计算单元、8196个流处理器,而且功耗控制在区区200W,完全有实力一战。

    时间:2020-04-21 关键词: TI NVIDIA rtx tesla 显卡 3080 ampere 安培

首页  上一页  1 2 下一页 尾页
发布文章

技术子站

更多

项目外包