当前位置:首页 > 芯闻号 > 美通社全球TMT
[导读]深圳2025年3月11日 /美通社/ -- 当前,大模型全流程训练对数据存储系统的要求已突破传统边界。企业级SSD作为AI算力基础设施的核心组件,其高可靠性、高性能及智能化管理能力,正成为支撑大模型训练效率与稳定性的关键。 从海量数据的预处理到高频参数迭代,从模型微调到实时推理...

深圳2025年3月11日 /美通社/ -- 当前,大模型全流程训练对数据存储系统的要求已突破传统边界。企业级SSD作为AI算力基础设施的核心组件,其高可靠性、高性能及智能化管理能力,正成为支撑大模型训练效率与稳定性的关键。

从海量数据的预处理到高频参数迭代,从模型微调到实时推理,大模型运行的每一个环节都需存储设备在"硬指标"与"软实力"间达成平衡。从产品可靠性视角出发,忆联新一代PCIe Gen5 ESSD UH812a/UH832a可高效支撑大模型全流程训练。

可靠性硬指标:从容应对数据洪流"耐力赛" 

大模型训练阶段,需处理从10TB到100PB量级不等的海量数据集,读写频率高、负载强度大。企业级SSD侧重以高耐久性、大容量、混合读写性能等"硬指标"应对挑战。

忆联UH812a/UH832a采用最新一代PCIe 5.0接口,其存储带宽、时延、密度、耐久性、数据完整性和寿命与稳定性等核心指标表现,均高于行业标准,对比同代际产品,处于业内领先水平。

  • 高速带宽与超低延迟 

PCIe 5.0高速接口:支持单双端口、NVMe2.0协议。对比PCIe 4.0带宽翻倍,可高效处理海量非结构化数据(文本、图像等)的清洗、标注和格式转换。
高吞吐量:顺序读写14900MB/s-10500MB/s,峰值性能领先业内同代际产品。
超低延迟:4K随机读取QD1延迟≤55μs,对比上一代(UH811a系列)改善43%。

忆联PCIe 5.0 SSD以软硬协同的高可靠性,支撑大模型全流程训练


  • 高密度与大容量

单盘容量可达15.36TB:15.36TB容量SSD的TBW通常为 28PBW-70PBW,满足大模型参数存储需求,减少数据迁移开销。

  • 错误率与数据完整性

UBER(不可恢复错误率):1E-18。JESD218A规范(固态硬盘可靠性测试方法)下,企业级SSD UBER满足 ≤1E-17即可,部分高端产品通过技术优化,可提升至1E-18。

  • 高耐久性

DWPD(每日全盘写入次数):高达3 DWPD(UH832a)。5年保修期内,可满足用户每天3次全盘的数据写入量,有力承载海量数据写入的应用场景。

  • 高置信度

MTBF(平均故障间隔时间):≥250万小时。累计1200+片盘测试。
AFR(年失效率):≤0.35%

根据OCP(开放计算项目)规范,企业级SSD的MTBF≥200万小时(运行温度0°-55°)、AFR(年失效率)≤0.44%即可。忆联UH812a/UH832a高置信度的MTBF和AFR可轻松满足模型训练场景需求。

忆联PCIe 5.0 SSD以软硬协同的高可靠性,支撑大模型全流程训练


系统级可靠性软实力:毫秒级响应推理"敏捷战" 

进入模型微调与推理阶段,读写数据量降低,参数读取速度和模型加载速度变得更为关键,存储需求转向低延迟与高服务质量(QoS)。此时,企业级SSD需以"软实力"极速响应推理"敏捷战"。

忆联UH812a/UH832a针对AI推理场景的典型需求,通过算法优化、容错与恢复机制、智能监控与维护、数据保护等系统级可靠性设计,以及积累多年的完备测试验证能力,构建了多维度的"软实力"保障体系。

忆联PCIe 5.0 SSD以软硬协同的高可靠性,支撑大模型全流程训练


  • 固件算法优化 

增强的LDPC纠错算法:提供比Flash颗粒要求更高的纠错能力,能够精准识别并修正数据传输与存储过程中出现的各类错误。LDPC+DSP算法引擎融合硬判决、软判决、DSP等手段,使Flash寿命最高提升5倍。

全场景QoS调优:随机读99.999%的QoS时延小于1ms,达到业界领先。

智能磨损平衡技术:智能均衡Flash颗粒磨损压力,区分"健壮"与"脆弱"的NAND单元,优化写入分布,避免NAND局部过度擦写,并结合智能健康监测提前预警潜在风险,提升SSD寿命。

智能FSP算法:通过软硬件协同设计,结合介质特性,有效解决SSD在长期使用中性能衰减、数据可靠性下降的痛点。业界最低误码率的FSP算法保护SSD生命末期可靠,使得SSD全生命周期性能浮动小于10%。

  • 容错与恢复机制 

内置类RAID算法:基于智能的类RAID算法,当介质数据出现错误后,可以恢复数据,单芯片故障不影响数据完整性。

Flexible RAID算法:在发生Flash器件失效后,将主动恢复故障Flash中的数据并继续对数据进行RAID保护。

掉电保护:当服务器异常下电时,通过内置电容在断电瞬间维持供电,确保硬盘内的数据不丢失,优先写入缓存数据,防止模型训练中断导致模型参数丢失。

  • 智能监控与预测性维护 

健康状态报告:实时检测设备剩余寿命、温度、IO统计、坏块率等指标。支持设备诊断、监测和SMART信息上报。

数据巡检技术:周期性巡检错误、处理坏块、校验数据等,在后台对全盘数据进行校验检查,可有效规避数据失真。若数据有失真风险,则及时搬迁此部分数据,并屏蔽该Flash空间,避免业务读取错误数据,确保数据可靠性、完整性和设备健康。

NVMe-MI带外管理:支持通过访问带外通道进行设备管理。如:软硬件状态监控、主机业务性能监控、SSD固件升级与激活、带外业务管理等。

  • 全链路数据保护 

端到端数据保护:保护整个数据路径中的数据,支持用户通过DIF域进行数据保护,数据在盘片内部各模块间传输时均有校验保护,应用于大模型推理的复杂场景,可显著降低数据丢失风险并延长SSD使用寿命。

高级Flash访问技术:组合应用Flash颗粒的Read retry和Adaptive read技术,有效保证数据的有效性。

  • 深度调优及验证

企业级研发实验室:可开展从软件研发、算法到芯片、硬件及软件测试等全方位的测试验证任务。基于行业三大标准规范(JEDEC规范、SNIA和OCP),拥有强大的产品验证及深度调优能力,通过多种可靠性专项验证测试,保障客户使用的SSD具备长期可靠性和稳定性。

全流程可靠性验证:从白盒、灰盒、黑盒等多维度保障软件特性功能和可靠性,已累计可靠性专项测试用例4000+。同时构建了兼容性CI,持续累积可靠性测试强度,测试规模和测试压力保持业界标杆水平。

忆联PCIe 5.0 SSD以软硬协同的高可靠性,支撑大模型全流程训练


综上所述,实现企业级SSD的高可靠性需"软硬结合",既要硬指标达标(如MTBF、UBER、AFR),也需软实力优异(如算法优化、容错与恢复、高标准测试验证等),通过构建"零数据丢失"的可靠防线,方能支撑大模型从PB级数据训练到毫秒级推理响应的全流程需求。

作为企业级PCIe 5.0标杆产品,忆联UH812a/UH832a将以稳定可靠的存力底座激发算力潜能,为客户与伙伴提供坚实的数据存储基础设施保障。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭