当前位置:首页 > 原创 > 刘岩轩
[导读]数据中心可以看作是一台大号的计算机,而云计算同样也符合冯诺依曼结构:数据从存储设备中取出,通过网络传送到计算单元,运算结果通过网络传输至存储设备中保存。 因此要实现更高性能的运算,更高效地支持LLM等新兴应用,算力、网力和存力,三者缺一不可。

数据中心可以看作是一台大号的计算机,而云计算同样也符合冯诺依曼结构:数据从存储设备中取出,通过网络传送到计算单元,运算结果通过网络传输至存储设备中保存。 因此要实现更高性能的运算,更高效地支持LLM等新兴应用,算力、网力和存力,三者缺一不可。

当算力向着异构计算方向发展,实现指数级的增加、网络向着更快速方向演进,进入400GE、800GE时代时,作为寸力代表的SSD,又有什么样的技术趋势?平头哥在2023年阿里云栖大会上给出了答案——旗下首颗自研SSD主控芯片“镇岳510”正式发布。


云计算应用追新逐日,数据基座面临存力挑战

存力指的是存储设备的能力,主要有性能、能效、可靠性和时延四个方面的指标。对于SSD而言,性能通常指的是读写带宽和读写IOPS;能效比指的是每消耗一瓦功耗可以提供多少的性能;可靠性指的是SSD的纠错能力,通常用UBER表示,也就是每读取多少笔数据会出现一次数据纠错失败;时延则是指的SSD从收到命令到返回响应的时间。

据平头哥产品总监周冠锋介绍,新兴应用对于云计算中的存力提出了更高的要求。

作为计算数据来源和结果数据的目的地,SSD吞吐率的高低将直接制约整个计算系统的性能;云上的一个业务请求通常会被分散到多个SSD中并发执行,任何一块SSD的时延抖动都会造成这个那个业务的请求延迟。此外,更高的存储密度、更好的能效表现,同样不可或缺。

今天发布的镇岳510是平头哥旗下第一颗SSD主控芯片,支持先进的PCIe 5.0接口和DDR5.0技术,内置玄铁910 RISC-V多核CPU,采用平头哥自研紧耦合芯片架构,对SSD任务进行高度抽象,可固化任务硬化为加速算子以提升性能。

据悉,镇岳510每秒可处理高达340万笔IO,每瓦功耗可提供42万笔IO访问。相比目前主流的PCIe 4.0SSD,镇岳510在相同的性能下,仅主控芯片即每年节省260万度电,按照一度电排放0.785千克二氧化碳计算,每年可减少二氧化碳排放2千吨。

镇岳510还内置了创新的IO自动化处理机制,前端IO解析与处理,由专用硬件模块自动完成,实现了业界领先的超低的时延(4μs),可以带给应用极佳的体验,比业界SSD降低30%以上。

在可靠性方面,镇岳510内置了平头哥自研的高性能LDPC纠错算法,编码效率逼近香农极限,同时ErrorFlow相比业内SSD更优一个数量级;借助平头哥自研闪存电压预测算法,可以在各种闪存的不同工况、寿命、温度等条件下,准确预测闪存电压漂移,进一步降低LDPC解码器的输入误码率。其实现了低至10^-18的UBER,相当于每读取百亿亿笔数据,才可能有一笔数据纠错失败。

虽然算力是越高越好,但其实不同的上层应用,对于底层的数据基座也有着差异化的需求。例如AI推理,更关注带宽和时延这两个参数;而AI推理,则更看重IOPS这个参数。而说到对于云上业务场景的理解,以及对于未来云计算技术趋势的判断,作为阿里云的独立芯片公司,平头哥是非常了解的。


镇岳510的定义和架构:灵活性和高效计算之间的平衡之术

为了实现紧密的软硬件耦合,从而达到整体更高的数据中心下效能,底层的SSD芯片在设计的时候要充分考虑到上层应用的IO模型。

对于产品定义,平头哥内部架构团队花了超过半年的时间反复审度,最终确定了镇岳510的设计目标,在灵活性和高效之间实现了最佳的平衡。

首先对于标准的选择上,2023年是企业级SSD从PCIe4.0向PCIe5.0迈进的元年,因此平头哥提前规划了这颗支持PCle5.0的SSD底座芯片。

而在灵活性和高效的平衡上,业界每一家SSD主控芯片的设计都有所不同,主要分为“命令流”和“数据流”两种。所谓的命令流,就是类似于纯SoC,更多的依赖CPU跑各种软件来实现命令的解析、拆分、各种表象管理以及后端应用组装下发等工作。这种方式拥有更高的灵活性。所谓的数据流,就是类似于当前镇岳510这样进行硬件大幅度卸载的设计方案,通过专门的硬件加速器来运行特定的工作任务,从而实现这些任务的高效稳定运行。

对于镇岳510而言,选择哪些功能卸载到硬件加速器上去跑,哪些仍然在CPU中去处理,就是一个非常棘手的问题。把所有的任务都放在专门硬件加速器中去做,就会主控芯片的丧失灵活性,而某些工作任务放在CPU中去处理,又得不到更好的加速。如何取舍?这需要对于云上应用场景的深刻理解。

据周冠锋分享,平头哥的SSD芯片的设计团队在前在设计前期是经过了大量的多种方案的对比,最终选择了当前一个最平均、最平衡的设计方案——既能通过硬件加速获得高效,同时又把一些关键的软件任务仍然留使用CPU来运行,这样获得灵活性。


为云而生,软硬件紧密耦合开启软件定义闪存时代

作为一款SSD主控芯片,镇岳510是为SSD而生,更是了云而生,最终是为了云上应用而生。以应用作为最终目的,将SSD与数据库进行紧密的软硬件耦合,这才是镇岳510这块硬件拼图的使命。

作为一家云服务商,阿里云拥有全栈的软件核心技术,而镇岳510在芯片层面也和阿里云的软件层面进行了一些配合,实现诸多对于云计算非常有价值的关键特性。

首先,镇岳510支持定制化ZNS协议,通过存储软件与NAND特性完美契合,达到数据排布的最优化,后台操作的最小化,从而进一步消除SSD接口税。

其次,镇岳510提供了IO粒度的优先级调度,实现了全链路QoS优化。延迟敏感型与带宽敏感型IO实现了精细化的区分处理,从而提升了延迟敏感型IO的SLA。

第三,镇岳510支持智能卸载功能。将可靠性计算任务卸载至SSD,实现全路径存储语义校验,同时也减轻了服务器主机算力开销。

将采用镇岳510主控的“镇岳SSD”与阿里云的统一存储平台“飞天盘古”相结合,就组成了阿里云从芯片到系统的全栈自研分布式存储。两者协同增强了云存储的灵活性,并推动数据中心向软件定义闪存的方向迈进。

声明:该篇文章为本站原创,未经授权不予转载,侵权必究。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭