当前位置:首页 > 芯闻号 > 产业新闻
[导读]北京2023年9月22日 /美通社/ -- 随着人工智能、云计算等技术的快速发展,算力需求爆发,服务器设计呈现多元异构特征,如何快速适配多种通用计算处理器、多种异构加速器和各类部件,实现服务器高效、稳定、可靠运行,对服务器管理的兼容性、精细度、定制化和快速迭代能力提出了一系列新的...

北京2023年9月22日 /美通社/ -- 随着人工智能、云计算等技术的快速发展,算力需求爆发,服务器设计呈现多元异构特征,如何快速适配多种通用计算处理器、多种异构加速器和各类部件,实现服务器高效、稳定、可靠运行,对服务器管理的兼容性、精细度、定制化和快速迭代能力提出了一系列新的挑战,BMC作为服务器管理和监控的核心部件,相关技术和发展趋势备受关注。

近日,在ODCC峰会"数据中心管理的开放之路"的圆桌对话上,来自英特尔、三星和浪潮信息的技术专家,从多元算力时代下管理固件面临的挑战、OpenBMC社区的发展现状、管理固件未来发展趋势等方向,畅聊数据中心固件管理开放之路,深度探讨OpenBMC为数据中心固件管理发展带来的全新机遇与变革路径。 

服务器管理BMC进入开源时代 英特尔+三星+浪潮信息专家对话OpenBMC


数据中心规模化发展,点燃BMC管理固件开源开放

BMC是在服务器中嵌入的复杂而独立SoC(System on Chip)系统,硬件上由BMC处理器、内存、Flash和外围I/O组成,连接着服务器的处理器、存储、传感器等各类组件,软件上基于Linux内核构建了嵌入式操作系统固件。BMC固件是服务器、整机柜到数据中心IT设备管理的关键核心, BMC不仅可以通过远程控制、故障诊断、配置部署、固件升级等各类运维管理功能,保障服务器安全可靠运行,也可以为整机柜、数据中心管理平台提供Redfish、IPMI、SNMP等API接口,实现海量服务器远程集中运维管理和批量部署,是数据中心高效管理的核心组件。

英特尔云计算系统架构师刘凌云在回顾BMC的演进过程中表示,BMC固件以往依赖IBV(Independent BMC Vendor,独立BMC固件提供商)设计的闭源商业方案。但随着超大规模互联网应用场景的增多,传统BMC开发周期长、线上故障响应不及时、安全需求及功能固化等问题日益突出。2014年,Meta(Facebook)面对传统BMC开发周期长、问题处理响应慢、黑盒代码不安全等问题,设计并开源了其管理固件解决方案,2015年Meta、谷歌、IBM、英特尔、微软共同发起成立OpenBMC社区,点燃了管理固件开源开放的星星之火。

对此,浪潮信息服务器固件研发经理王兴隆补充道:"服务器管理固件的产业生态是在数据中心规模不断扩大的背景下逐渐成熟,而传统BMC开发模式封闭、代码闭源、架构陈旧,已无法满足大规模数据中心更加精细化、深层次的管理需求,OpenBMC应运而生,OpenBMC通过先进的软件架构让各功能模块深度解耦,甚至能够按需加载功能模块,提升了代码的可移植性,显著缩短了固件开发周期;开源开放让上下游厂商能够共同参与贡献,促进了产业合作与发展。随着2018年OpenBMC被Linux基金会接纳,行业对其认可程度逐年提升。"

同时,借助OpenBMC,服务器、部件等领域的固件创新也在加强,三星电子西安电子研究所资深高级工程师李宁分享了三星和浪潮信息合作的SSD带外管理创新项目。三星通过优化SSD内部架构,设计独立的带外管理控制器监控SSD的主控部件,将SSD的管理和主控分离,管理控制器独立供电,不仅带来更强大的带外管理能力,控制逻辑也更加可靠。同时浪潮信息基于OpenBMC实现BMC与SSD的带外管理信息交互,实现了资产信息获取、SSD健康状态监控、运行日志抓取、主动告警等功能特性,相比传统BMC,明显提升协同开发调试效率,缩短了开发周期,加快了产品落地进度。

智算崛起 数据中心管理固件开放成为刚需

如果说数据中心的规模化发展点燃了BMC固件管理开源开放的"星星之火",那么数据中心算力的多元化将让开放的BMC管理固件形成"燎原之势"。刘凌云指出,通用服务器BMC需管理的硬件主要有CPU、存储、网络、散热风扇等,但在AIGC平台上,BMC需要管理的硬件不但数量多,类型也百花齐放,从之前的单一的GPU卡到现在新兴的GPGPU卡、AI加速卡、FPGA卡等各种异构加速器,以及其他的通用计算平台。面对众多的芯片,需要定义更加开放的BMC管理接口标准,以实现数据中心高效管理。

王兴隆进一步解释说:传统BMC固件架构落后,可扩展性差,无法快速适配兼容不同的处理器、加速器。开放的OpenBMC固件基于分层解耦的软件架构,功能模块之间通过一致的系统总线接口协议进行交互,扩展性高,能够实现灵活的模块化开发,同一套OpenBMC固件代码能够同时兼容多种处理器平台、多种异构加速器等关键部件,对于新增部件能够快速适配兼容,大幅缩短迭代周期,提升开发效率。

除了多元算力对BMC固件扩展性、定制化的需求,刘凌云还表示,高算力带来的高功耗也在推动数据中心散热体系变革,风冷式、冷板式、浸没式液冷方案持续并存,这些都需要BMC的统一管理调度。面对超大型互联网、人工智能等应用场景,新兴服务器硬件种类繁多、快速迭代,OpenBMC已经不是锦上添花,而是"非你莫属"了。

王兴隆指出,在异构多元算力需求不断提升的背景下,算力纵向扩展瓶颈越来越明显,横向扩展成为趋势,为提升算力资源协同利用率,浪潮信息设计实现融合架构3.0原型系统,将通用计算、异构加速计算、内存、存储、I/O等资源池化,实现硬件解耦,同时面向不同应用场景需要通过软件定义进行硬件资源重构,形成适用于不同应用负载的服务器系统,而OpenBMC为软硬件协同承担了更多软件定义的角色。

传统BMC or OpenBMC,企业何去何从

OpenBMC势不可挡,但是否意味着传统BMC走向末路了呢?对此,刘凌云认为传统的BMC和OpenBMC当前是两条技术路线,适应于不同的应用场景。中小规模的数据中心用户关注业务稳定性,关注管理固件的兼容性,对定制化要求不高,固件管理的技术投入资源有限,对技术类别不敏感,传统的BMC在这种场景仍然有着广阔空间。而对于大型、超大型互联网客户,快速响应,更高性能、更精细化的管理、定制化等诉求则更适合采用OpenBMC。目前处理器厂商正在围绕带外管理,运用OpenBMC更精细的管理数据中心设备,在故障诊断、预警、安全等方面进行固件技术创新,以保证较高可用性、可靠性和可管理性。

OpenBMC经过近十年的发展,已经形成较为稳定的基础代码,国内大型CSP已发布OpenBMC方案,服务器厂商也在持续开发OpenBMC相关产品和配套解决方案,在刚刚结束的ODCC开放数据中心产业峰会上,浪潮信息发布了基于OpenBMC的最新服务器管理固件解决方案,面向通用客户实现OpenBMC落地应用。

产业界上下游携手,加速OpenBMC发展

出席"大咖来了"的三位嘉宾一致认为OpenBMC是大势所趋,数据中心管理固件的开源开放将推动和强化服务器、部件、处理器等多方面的协同,并为数据中心高效管理提供更优的解决方案。从部件角度,三星未来将聚焦于存储部件带外管理,基于OpenBMC开源代码进行固件创新,提供增强的带外管理能力,比如产品内部各组件监控,设备寿命预测,智能化故障分析,异常恢复和设备认证数据加密等方面。同时,基于OpenBMC的设备带外管理标准化对推动产业上下游协同至关重要,三星携手浪潮信息在近期的ODCC峰会中发布了《服务器插入式设备带外管理白皮书》,希望通过定义部件管理的软硬件接口,加速部件与主机BMC适配效率。

从英特尔角度来看,OpenBMC最重要的功能就是带外监控和管理,未来管理会更加智能化、细粒度和更安全,从而提升数据中心SLA降低TCO。例如内存故障预测隔离,能显著降低服务器故障率;在线无缝的固件升级,还有对CPU状态性能监测功耗的优化管理会也更加精细,以及对硬件的保护提升安全性等等。此外OpenBMC做为开源开放平台,在GPU卡、节能散热等方面建立标准化管理接口也是未来英特尔研究的方向。

浪潮信息则认为OpenBMC的发展会更加开放,更广泛的产品应用和更稳定的社区基础代码,将吸引更多的上下游厂商参与到社区的建设当中。同时OpenBMC将会更加标准化,当前面向用户侧的管理接口已通过Redfish规范进行了标准化,但在服务器内部的部件管理标准化程度还不够,相信OpenBMC将推动内部管理接口标准化。目前,为了满足数据中心多元化的算力需求,浪潮信息开发了基于OpenBMC的服务器管理固件平台InBry,并对接数据中心集群管理平台InManage,推动形成从部件到服务器到数据中心的全生命周期精细化管理。

未来,OpenBMC产品化应用更为广泛,更多用户将会从OpenBMC受益,OpenBMC持续健康发展将为数据中心产业的绿色高质量发展创造更大价值。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

据韩媒《朝鲜日报》消息,三星集团已确认已决定将适用于三星电子等部分关联公司的“高管每周工作 6 天”扩大到整个集团。三星子公司的人力资源团队直接通过口头、群聊和电子邮件向高管传达了这一新政,而非正式信函的形式。

关键字: 三星

4月22日消息,中国第一季度半导体产量激增40%,标志着成熟制程芯片在中国市场的主导地位日益巩固。

关键字: 半导体 英特尔 意大利

业内消息,近日英特尔表示其已成为第一家完成组装荷兰ASML的新型“High NA”(高数值孔径)EUV(极紫外)光刻设备的公司,目前已转向光学系统校准阶段。这是这家美国芯片制造商超越竞争对手的重要举措。

关键字: 英特尔 ASML EUV 光刻机

近日有韩媒称,由于薪资谈判破裂,劳资双方未能缩小对涨薪的意见分歧,三星电子全国工会(NSEU)即日起将发起公司成立以来首次集体行动,工会当天在华城市(Hwaseong)京畿道华城园区的组件研究大楼(DSR)前举行文化活动...

关键字: 三星

上海2024年4月16日 /美通社/ -- 4月14日,为期四天的第89届中国国际医疗器械博览会(CMEF)盛大收官。澳鹏Appen很荣幸再次作为唯一的人工智能训练数据参展商参与此次"航母级"规模医疗...

关键字: APP 医疗器械 PEN 模型

美国商务部日前宣布,将向三星提供64亿美元的资助,用于在德克萨斯州建设芯片工厂。

关键字: 芯片工厂 芯片资助 三星

新型LPDDR5X是未来端侧人工智能的理想解决方案,预计将在个人电脑、加速器、服务器和汽车中得到更广泛的应用

关键字: 三星 人工智能 LPDDR5 处理器

业内消息,昨天美国政府宣布将向三星电子提供至多价值 64 亿美元(当前约合 464.64 亿元人民币)的补贴,而三星电子将在得克萨斯州投资超过 400 亿美元,建设包括 2nm 晶圆厂在内的一系列半导体项目。

关键字: 三星 2nm 晶圆厂

近日,英特尔联合华铭、锐宝智联和育脉共同打造了融合掌静脉特征识别技术的智能城市轨道交通自动售检票系统(AFC)方案,将掌静脉特征识别技术应用于城市轨道交通场景,实现了轨道交通自动售检票系统的技术革新。

关键字: 英特尔 智慧交通

业内消息,继此前正式公布新一代AI加速芯片 Gaudi 3 之后,英特尔拟另准备针对中国市场推出“特供版”Gaudi 3,包括名为HL-328的OAM相容夹层卡(Mezzanine Card )和名为HL-388的PCl...

关键字: 英特尔 特供芯片 芯片 Gaudi3
关闭