当前位置:首页 > 工业控制 > 工业控制技术文库
[导读] 人工智能在机器学习和深度学习中的“复活”导致相关研究和产品开发的爆炸式增长,因为企业发现了创新性方法来将这些新算法用于流程自动化和预测性见解。从机器学习和深度学习模型(后者通常涉及模拟大脑的神经

人工智能在机器学习深度学习中的“复活”导致相关研究和产品开发的爆炸式增长,因为企业发现了创新性方法来将这些新算法用于流程自动化和预测性见解。从机器学习和深度学习模型(后者通常涉及模拟大脑的神经结构和连通性)的性质来看,它们通常需要获取、准备、移动和处理海量数据集。 

特别是,深度学习模型需要大量数据集。人工智能(特别是深度学习)的数据存储给企业带来独特的挑战。下面我们将简要探讨机器学习和深度学习软件的性质,而这将揭示存储系统对于这些算法的重要性,以确保它们提供及时准确的结果。
 

为什么AI和深度学习存储很重要 

很多研究人员已经证明,深度学习模型的准确性会随着数据集的增加而提高。这种准确性的提高非常重要,以至于研究人员经常会使用复杂的数据增强技术来综合地生成额外数据用于训练模型。

例如,ImageNet项目的数据集包含超过1400万张具有一百万个注释的图像,这些数据集被用于对各种深度学习图像分类算法进行基准测试。同时,对图像分类硬件进行基准测试的ResNet-50模型通常会超过100 MB。理想情况下,这些模型保存在内存中,它们需要源源不断的数据,而这通常会导致存储系统成为整体性能的瓶颈。 

无论使用什么模型和应用程序,深度学习都包括两个步骤:模型训练和数据推理。模型训练是指,通过利用训练数据集,基于重复(通常是递归)计算以计算和优化模型参数的过程。数据推断是指利用已经过训练的模型对新传入数据进行分类和预测。 

对于为AI和深度学习提供存储的系统而言,每个步骤都会以不同方式带来压力。对于模型训练,压力源于大数据集以及快速I/O—以提供可接受性能,这里的计算涉及分布式集群。而对于推理,压力来自必须以最小延迟实时处理数据。

深度学习的存储性能需求

深度学习算法的性质意味着它们会使用大量矩阵数学,这使它们非常适合GPU上的执行,GPU最初设计用于对像素数据进行数千个同步浮点计算。与计算机图形不同,神经网络和其他深度学习模型不需要高精度浮点结果,并且新一代AI优化的GPU和CPU(支持低精度8位和16位矩阵计算)使这些模型进一步加速,这种优化会使将存储系统变成更大的性能瓶颈。

深度学习模型和数据源的多样性,以及深度学习服务器通常采用的分布式计算设计,意味着旨在为AI提供存储的系统必须解决以下问题:

1.各种数据格式,包括二进制大型对象(BLOB)数据、图像、视频、音频、文本和结构化数据,它们具有不同的格式和I / O特性。 

2.横向扩展系统架构,其中工作负载分布在多个系统中,通常有4到16个用于训练,可能有数百个或数千个用于推理。 

3.带宽和吞吐量,可以快速向计算硬件提供大量数据。 

4.OPS,无论数据特性如何,IOPS都能维持高吞吐量;这就是说,适用于很多小型传输和较少的大量传输。 

5.延迟性,以最小延迟提供数据,因为与虚拟内存分页一样,当GPU等待新数据时,训练算法的性能会显著降低。

深度学习存储系统设计必须可跨各种数据类型和深度学习模型提供均衡的性能。根据Nvidia工程师的说法,在各种负载条件下验证存储系统性能至关重要。他写道:

“工作负载的复杂性加上深度学习训练所需的数据量,带来一个具有挑战性的性能环境….考虑到这些环境的复杂性,重要的是,在投入生产之前应收集基准性能数据,验证核心系统(硬件组件和操作系统)在合成负载下可提供预期的性能。”

深度学习存储系统的核心功能

上述性能因素已推动AI存储系统供应商部署五个核心功能,包括:

1.并行的横向扩展系统设计,可逐步扩展且I / O性能随容量扩展。这种设计的标志是分布式存储架构或文件系统,这些系统将逻辑组件(例如对象和文件)从物理设备分离。

2.可编程的软件定义控制平面,这是实现横向扩展设计以及自动化大多数管理任务的关键。

3.企业级可靠性、耐用性、冗余和存储服务。

4.对于深度学习训练系统,紧密耦合的计算存储系统架构,具有无阻塞网络设计可连接服务器和存储,以及最低链路速度为10 Gb至25 Gb以太网或EDR(25 Gbps)InfiniBand。

5.SSD设备越来越多地使用更快的NVMe设备,可提供比SATA更高的吞吐量和IOPS。

DAS系统通常使用NVMe-over-PCIe设备

NAS设计通常使用10 Gb或更快的以太网,使用NVMe over fabric、Infiniband或交换PCIe架构。

量身定制的存储产品

AI现在是一项热门技术,供应商们都纷纷快速向市场推出新产品和更新产品,以满足AI工作负载的需求。鉴于这种市场活力,我们不会试图提供AI存储产品的综合目录,但以下是一些示例:

Dell EMC Ready Solutions for AI ,具有机架规模捆绑包,其中封装有服务器、存储,边缘交换机和管理节点。该存储使用具有40 GbE网络链路的Isilon H600或F800全闪存扩展NAS。

DDN A3I 使用AI200或AI400 NVMe全闪存阵列(AFA),分别具有360 TB容量和750K和1.5M IOPS,以及4或8个100 GbE或EDR InfiniBand接口,或DDN AI7990混合存储设备-具有5.4 PB容量、750K IOPS和4个100 GbE或EDR InfiniBand接口。DDN的产品还有捆绑Nvidia DGX-1 GPU加速服务器和Hewlett Packard Enterprise Apollo 6500加速服务器。

IBM ElasTIc Storage Server AFA具有多种基于SSD的配置,可提供高达1.1 PB的可用容量。IBM还有一个参考系统架构,其中整合了ElasTIc Storage Server与Power Systems服务器和PowerAI Enterprise软件堆栈。

NetApp OnTap AI参考架构将Nvidia DGX-1服务器与NetApp AFA A800系统和两个Cisco Nexus 3K 100 GbE交换机相结合。A800可提供1M的IOPS,延迟时间为半毫秒,同时,其横向扩展设计可在24节点集群中提供超过11M的IOPS。

Pure Storage AIRI是另一个DGX-1集成系统,它使用Pure的FlashBlade AFA系统,支持文件和对象存储。参考系统可用于Arista、思科或Mellanox交换机。例如,一个Arista设计使用15个17 TB FlashBlades,具有8个40 GbE链路连接到Arista 32端口100 GbE交换机。

深度学习推理系统对存储子系统的要求较低,并且,通常可通过在x86服务器中使用本地SSD来实现。虽然推理平台通常是具有本地SSD或NVMe插槽的传统1U和2U服务器设计,但现在它们越来越多地包括计算加速器,例如Nvidia T4 GPU或FPGA,这些加速器可以将一些深度学习操作编译到硬件的。

(来源:TechTarget中国)

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

北京——2024年4月30日 亚马逊云科技持续引领云上数据服务创新,助力企业构建全面的数据基座以充分发挥数据潜力,加速生成式AI技术落地。在生成式AI时代,数据是企业脱颖而出的关键——基础模型依赖于大规模高质量数据集,生...

关键字: 生成式AI 数据 模型

北京——2024年4月25日 我们的客户选择亚马逊云科技运行他们的关键应用程序和最敏感的数据。每天,世界上发展最快的初创公司、最大的企业和最值得信赖的政府机构都选择亚马逊云科技作为技术基础设施平台。他们之所以选择亚马逊云...

关键字: GPU 计算 生成式AI

据报道,日本电信巨头软银集团将在未来两年投资1500亿日元(9.6亿美元)升级其计算设施,该计划包括大量采购英伟达GPU。

关键字: 软银 英伟达 GPU AI

4月24日消息,特斯拉CEO马斯克在最近的财报电话会议上透露,特斯拉的Optimus人形机器人预计将在今年底前具备执行“有用的”工厂任务的能力,并有望在2025年底前推向市场。这一消息引发了业界和公众的广泛关注。

关键字: 马斯克 AI 特斯拉 GPU

近日媒体Business Insider透露称,微软目前正在疯狂囤货GPU,目标在2024年12月前达到180万片。微软本次采购的 GPU 主要来自英伟达公司,不过微软也计划采购 AMD 等其它公司的 GPU 进行扩充。

关键字: 微软 GPU

如今汽车正逐渐成为“车轮上的数据中心”,而先进功能和计算架构的创新也使得这一称号愈加贴切。例如,智能汽车是目前最复杂的由软件驱动的机器,运行约一亿行代码,随着 AI 在汽车中的兴起,这一数字预计很快将攀升至 10 亿行。...

关键字: SSD 智能汽车 存储系统

上海2024年4月16日 /美通社/ -- 4月14日,为期四天的第89届中国国际医疗器械博览会(CMEF)盛大收官。澳鹏Appen很荣幸再次作为唯一的人工智能训练数据参展商参与此次"航母级"规模医疗...

关键字: APP 医疗器械 PEN 模型

福州2024年4月16日 /美通社/ -- 4月15日,第61届中国高等教育博览会(以下简称“高博会”)于福州隆重开幕。索贝以“视听新体验•数智向未来,让知识传递更加精准高效”为主题,携全新升级的智慧教育资源管理平台、课...

关键字: 模型 数字化 AI算法 质量评估

Apr. 16, 2024 ---- NVIDIA新一代平台Blackwell,包含B系列GPU及整合NVIDIA自家Grace Arm CPU的GB200等。TrendForce集邦咨询指出,GB200的前一代为GH2...

关键字: CPU GPU

联发科官方近日宣布,天玑开发者大会(MDDC 2024)将于5月7日在深圳隆重开幕。此次大会以“AI予万物”为核心议题,旨在汇聚全球开发者智慧,共同探讨AI技术在多元领域的应用前景与发展动向。届时,众多行业领袖与资深专家...

关键字: 生成式AI GPU 天玑
关闭
关闭