当前位置:首页 > 厂商动态 > Intel
[导读]Aurora超算是英特尔最近参与的备受瞩目的项目之一,它对英特尔整个系统产品组合都挺有挑战性。事实上,Aurora超算不仅是世界上最大的GPU集群,同时,预计将成为第一台峰值性能达到每秒2百亿亿次(2×10^18)浮点运算能力的超算。

作为阿贡国家实验室Aurora超算的首席架构师和主要研究员,Olivier Franza在这台极具雄心的科学仪器落地的过程中发挥了主导作用。

Aurora超算是英特尔最近参与的备受瞩目的项目之一,它对英特尔整个系统产品组合都挺有挑战性。事实上,Aurora超算不仅是世界上最大的GPU集群,同时,预计将成为第一台峰值性能达到每秒2百亿亿次(2×10^18)浮点运算能力的超算。

作为一位在英特尔工作了22年的老兵,在面对Aurora超算时,Olivier Franza还是感受到了压力。

2016年,Olivier Franza作为系统硬件架构师加入了Aurora项目,2021年,他成了首席架构师,目睹了Aurora项目向基于GPU架构的重大转变。

“首席架构师要做的就是根据客户的高标准要求,来调整超算的整体系统架构,”Franza解释说。“首席架构师也会关注一些基本的参数,比如总体性能指标,功耗情况,还有一些RAS(可靠性、可用性、可维护性)特性,这些对于构建有扩展性的系统都至关重要。”

当然,首席架构师要关注的是整个系统方方面面,从一个个节点到一个个机架再到整个系统,还要包括各种网络和存储组件,都需要考虑到。

一次技术路线转变为塑造未来产品创造了机会

Aurora超算是早期规划中计划采用一系列的英特尔产品技术。随着英特尔产品路线的调整,Aurora的规划也做出改变。

当英特尔宣布打造数据中心GPU产品线后,Franza参与到了英特尔数据中心GPU Max系列产品的设计讨论工作当中。

所以说,Aurora超算不是一步到位成现在这样的。Aurora超算的构建过程,影响着英特尔战略和产品线规划,也使得Aurora超算能在很高的层面解决规模和性能问题。

Franza表示,英特尔通过从组件到系统做出很多调整来满足Aurora超算的需求。

比如,英特尔至强CPU Max系列处理器的架构和概念,就衍生自英特尔至强Phi的一些特性,这是第一个在封装里集成了高带宽和高容量创新内存架构的产品。

此外,为了追求更高的性能,Aurora超算的各种子系统都取得了一些进步,从刀片服务器的散热,到高密度集成的方式再到存储部分,都有许多创新。

值得一提的是,在这一过程中,英特尔还构建了一个全新的存储系统——DAOS(分布式异步对象存储)。

Franza表示,这是一个开源项目,可以在传统硬件上实现高速存储,而Aurora超算是首批使用DAOS的用户之一,同时也是目前DAOS部署规模最大的用户。

从设计组件到把数千个系统连在一起

Aurora超算项目加强了英特尔系统级思考能力,也推动了英特尔内部各业务部门之间的协作,与外部阿贡科学家和HPE(HPE是该项目的另外一个主要参与者)工程师之间的协作,有很多跨职能部门和跨组织的协作工作。

“让一整个团队统一行动,交付像Aurora这样的超级计算机,对我们许多人来说,是一生难得一次的经历。”Franza说。

尽管工程师在六月份就安装了最后一台刀片服务器,但Aurora超算后续的大规模测试、稳定性验证还需要Franza 夜以继日的工作。

Franza为一个大的团队提供指导,该团队负责Aurora超算的启动、验证、稳定、优化工作,尽可能发挥系统在负载下的性能表现。其中最值得注意的是High Performance Linpack(HPL)基准测试,这是Top500榜单的排名依据,榜单上都是全球最强的超算系统。

每天早上,Franza都会仔细检查每个节点在夜间的运行情况,并为第二天及以后的工作制定计划。每天下午,Franza都会开会总结进展和遇到的难题。这样的工作每天都有,而机器也一直在运转当中。

“我们会系统地进行验证,”Franza解释说。“先从单个刀片服务器开始,然后转向机架规模,再到多个机架规模,以此进行大规模验证。”

Aurora超算由10624台刀片服务器组成,拥有63744块英特尔Max系列GPU,是世界上规模最大的GPU集群。在166个机架当中,使用了一共21248块英特尔至强Max CPU。

Franza介绍称,Aurora超算中心的大小相当于4个网球场那么大,听起来规模就很大,但只有亲眼看到它,才会真正意识到它有多大。

Franza的首要工作就是确保系统稳定性,功能完善,还要能正常运行。这是一项非常艰巨的任务,而Franza已经看到了胜利的曙光。

走在数据中心的通道里,看着灯光闪烁着,看着机器在正常运转,这令Franza感到神清气爽,并且很有满足感和成就感。

“一生一次难得一次”的努力,打造解决科学难题的超级计算机

打造一座有影响力的科研超级计算机固然会面临很多难题和阻碍,但考虑到Aurora超算在癌症研究方面的巨大潜力,有机会让所有人受益,Franza内心的使命感支撑他走了过来。

Aurora超算不仅会用于解决世界上一些最复杂的科学和工程问题,它还是运行生成式AI,并将生成式AI用于研究的理想平台。

据了解,Aurora超算将支持迄今为止,规模最大的大型语言模型,即1万亿参数的Aurora GenAI项目,从而提高科学家的工作效率、简化科学家的工作。

Franza做的是一件了不起的事情,而工作中令他感到欣慰的还有团队协作和友情。

Aurora超算是一项工程量浩大的项目,需要许多人付出长期努力,需要大量的毅力。

从Franza的介绍中了解到,其核心团队一直保持着马拉松式的心态,直到最后一刻都不能放松,团队需要的是那种能够长时间专注于极具挑战性事物的人,而这些人最终所取得的成就是大部分人都很难做到的。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭