当前位置:首页 > 芯闻号 > 美通社全球TMT
[导读] (全球TMT2022年6月17日讯)日前,在由存储产业技术创新联盟主办的"元宇宙存储研究与实践"开放计算技术沙龙上,来自中科大、华中大、郑州大学以及浪潮存储的"产学研用"各界专家汇聚一堂,在关注元宇宙存储发展的同时,还共同就纠删码优化、细粒度感知等数据保护话题展开讨论。本次沙龙...

(全球TMT2022年6月17日讯)日前,在由存储产业技术创新联盟主办的"元宇宙存储研究与实践"开放计算技术沙龙上,来自中科大、华中大、郑州大学以及浪潮存储的"产学研用"各界专家汇聚一堂,在关注元宇宙存储发展的同时,还共同就纠删码优化、细粒度感知等数据保护话题展开讨论。本次沙龙是场景共同体战略的承袭和实践,浪潮信息存储产品线总经理李辉曾提出,面向层出不穷的新应用、新场景,携手产业链伙伴推进"平台+生态"战略,以六种模式加速企业数字转型。

以元宇宙为代表的新应用带来数据规模十倍、百倍激增,快速增长的多模态数据增加了企业数据保护的难度。数据显示,企业现在管理的数据量是五年前的十倍以上,全球82%、中国88%的IT决策者担心现有数据保护方案无法满足未来业务挑战。数据保护,已然成为摆在企业数字化转型面前的一大挑战。本次沙龙,中国科学技术大学许胤龙教授以及浪潮存储技术专家共同给出了答案。

数据容错  业界两种技术流派之争

"数据容错,业界通常有两种办法,一种是多副本,另一种是纠删码",许胤龙教授表示。多副本访问性能高、故障修复快,但存储开销比较大(烧钱、占地),令企业直呼吃不消;纠删码开销小(花小钱、办大事),一般存储空间比RAID 1镜像小,在数据爆炸式增长的趋势下更受市场欢迎,企业用脚投票纷纷选择了纠删码。

三副本和纠删码对比
三副本和纠删码对比

时下人气攀升的纠删码,究竟是什么呢? 所谓纠删码(Erasure Coding),是一种数据保护方法,它将数据分割成片段,把冗余数据块扩展、编码,并将其存储在不同位置,比如硬盘、存储节点或其他物理位置。

"纠删码,可以简单理解成对原始数据做线性组合",许胤龙教授表示。比如 (2+2) 纠删码,就是A、B两个数据可以做A+B和A+2B的线性组合,能容任意两个节点错,当恢复数据的时候直接解方程就行。一般情况下,业界常用的是(k,m)-MDS码,把k个数据编码成m个校验数据,k+m个数据块形成一个条带,最多可以容许m个块同时故障。工业界常见的m一般是2或3,数据规模较大的话,可以把m设为4~6。

纠删码 跑得如丝般顺滑并非易事

纠删码"花小钱、办大事"的优势虽然非常明显,但要在超大规模数据中心内或者是跨数据中心使用纠删码做数据保护,却需要过五关闯六将,绝非易事。

第一关:同一数据中心内,数据恢复的网络传输时间占比超90%,纠删码"龟速"难题如何破。

纠删码能够降低存储成本、提高容错能力,但纠删码最大的问题是在数据丢失之后,数据恢复过程需要从其他地方读取大量数据,故障修复堪称龟速。通过对纠删码"从存活节点读取数据、传输、在备份节点解码、传输、在替代节点写入"的整个流程做分析,发现网络传输占整个数据恢复时间的比例超90%,如何优化数据恢复时间呢?

首先,数据分批恢复。在实际系统里面,数据块是随机的分布到不同的节点里,随机数据分布从统计概率的角度来说,是能达到负载均衡的。但一般来说,在系统实现的时候,一般来说因为系统IO、内存、CPU资源也有限,同时系统还要支撑前台的应用综合各方面,所以修复一般都会是分批进行。"我们做过实验,分批比不分批大概要快15%左右",许教授表示。

清华、港中大、普渡、中科大纷纷开展纠删码优化研究
清华、港中大、普渡、中科大纷纷开展纠删码优化研究

其次,可以利用二部图和网络流图的办法,使得从不同的节点上进行恢复的时候,不同节点上读数据量是均衡的,写数据量也是均衡的,并且每一个节点承担的恢复任务也是均衡的。清华、港中大、普渡、中科大等高校均对纠删码技术进行了研究,经过优化中科大SelectiveEC技术能够在90%以上的情况下都实现负载均衡,相比HDFS大约50%的负载均衡水平,中科大的负载均衡水平能高出70%以上,恢复速度提升30%以上。同时Selective EC比HDFS有更少的毛刺、更短的长尾、更短的任务生命周期。

纠删码优化结果
纠删码优化结果

"我们很认同许教授的观点,为了实现数据纠删的负载均衡,浪潮存储一直在技术上不断打磨和创新",浪潮信息分布式存储架构师张立强表示。浪潮分布式存储AS13000突破软硬件协同宽条带纠删技术,融合多元算力,解决数据高冗余比纠删的计算性能、资源消耗、容量、可靠性等指标难以兼顾的问题。举个例子,浪潮存储创新研制了纠删码FPGA加速卡,设计可重构最小硬件逻辑单元,实现编解码复用、全纠删比支持,实现宽条带纠删的CPU计算卸载。在32+6纠删比配置下,浪潮存储能够将处理器平台的CPU占用率降低90%,性能提升390%,这就如同将汽车行驶的速度提升到了复兴号的水平。其实浪潮分布式存储在高校领域应用广泛,目前已经在中科大、清华、北大、复旦、浙大、中山大学等国内高校实现规模化部署,支撑科研智慧应用平台稳定运行,以数据之力助力科研取得丰硕成果。

第二关:跨数据中心场景,数据中心带宽极其有限,如何"跨越万水千山"做纠删。

考虑到地震、山洪、火灾等灾害因素影响,大型企业往往会跨数据中心做数据保护。所谓跨数据中心,是指多个数据中心可能建在距离城区比较远的地方或者是不同的城区的地方,这时候跨数据中心的带宽就会很宝贵,通常跟数据中心内部的带宽相比,跨数据中心带宽只有1/20。

跨数据中心带宽约为数据中心内带宽的1/20
跨数据中心带宽约为数据中心内带宽的1/20

RS码部署方式在同一数据中心内做纠删是有优势的,但在跨数据中心环境下却面临挑战。这是因为RS码是把一个条带的数据均匀分布到不同数据中心去。假如现在有15个数据块,把它编码成12个校验块,分散在三个数据中心,这时候只能容单个数据中心故障,存储开销大概是180%,如果出现单块故障,需要跨数据中心访问7个数据块,需要的带宽开销比较多。

新型LRC(Locally Repairable Code)分组编码方式,可以在存储开销和恢复性能之间做一个权衡。LRC(k,l,g)分组编码有三个值,k表示数据块,l代表局部校验块,g是全局校验块。LRC分组编码通过读取局部数据块,减少重构所需的数据量,从而提升数据修复性能。这就好比618购物,北京小伙买一箱牛奶,如何用最快的速度把货物送到顾客手里呢,电商平台会找到距离顾客比较近的天津或河北仓库(类似l局部校验块)进行配送,尽量减少从西安或广州(类似g全局校验块)调货的概率。

LRC分组编码技术优化结果
LRC分组编码技术优化结果

按照新型部署方式,"在实际集群里面,我们实现了数据传输、数据解码的优化,大概能把速度提升30%",许胤龙教授表示。

"浪潮一直将可靠性视为存储的生命线,在异地数据保护方面做了诸多创新",浪潮信息存储研发部何营表示。浪潮存储不仅基于一套存储架构承载块、文件、对象、大数据等多种数据服务,在WAN加速、快速重构、透明故障切换等高级功能方面持续创新。以WAN广域网加速技术为例,浪潮存储通过数据流压缩、固定块切割和多数据流并发,将远程传输性能提升高达10倍、延时降低10倍,帮助海量数据异地迁徙和灾备。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

在SEMICON CHINA 2024,Kulicke & Soffa Pte. Ltd. 作为行业领先的半导体封装和电子装配解决方案提供者,展示了先进点胶解决方案、多种先进封装解决方案、最新的垂直焊线晶圆级焊接工艺、还...

关键字: 智能制造 晶圆 数据中心

最新发布的平台增强功能帮助客户利用单一管理层加强数据存储环境的管控,有效简化端到端操作

关键字: 存储 数据中心 可持续发展

该解决方案采用全新 1.6T 以太网控制器 IP、经过硅验证的224G PHY IP和验证IP,助力未来基础设施的升级建设

关键字: 数据中心 芯片 以太网

没有数据中心,AI产业就无法正常发展。为了追赶新浪潮,美国科技巨头纷纷投入巨资,建设数据中心。

关键字: AI 数据中心

美光 HBM3E 比竞品功耗低 30%,助力数据中心降低运营成本

关键字: 人工智能 数据中心 存储

过去一年,我们开始意识到AI蕴含的巨大能量及其激发的创新潜能,围绕AI的热议居高不下,其中许多创新将深刻改变科技行业乃至整个世界的发展进程。

关键字: AI 数据中心

英特尔发布两款全新芯片——Sierra Forrest 和 Granite Rapids-D,还宣布一个全新边缘平台全面上市。这些产品旨在满足运营商和企业在可持续发展和AI方面的需求。

关键字: 可持续发展 AI 数据中心

【2024年3月1日,德国慕尼黑和加利福尼亚州长滩讯】人工智能(AI)正推动全球数据生成量成倍增长,促使支持这一数据增长的芯片对能源的需求日益增加。英飞凌科技股份公司近日推出TDM2254xD系列双相功率模块,为AI数据...

关键字: AI 数据中心 功率模块

是德科技(NYSE: KEYS )宣布,针对人工智能(AI)和机器学习(ML)基础设施生态系统,推出了 AI数据中心测试平台,旨在加速AI / ML网络验证和优化的创新。该解决方案显著提高了AI基础设施的评估测试能力,并...

关键字: 人工智能 机器学习 数据中心

虽然模块化数据中心为行业带来了令人兴奋的可能性,但它并不是一种万能的解决方案。那么,如何合理的模块化使用呢?它何时有效,何时无效?

关键字: 模块化 数据中心
关闭