人工智能的隐藏成本为什么数据中心的策略需要重新思考
扫描二维码
随时随地手机看文章
人工智能已经成为世界上一些变革性最强的技术背后的推动力。从医疗、金融到汽车和娱乐等行业的重塑潜力无穷。然而,随着人工智能的采用继续激增,对训练和部署这些复杂模型所需的巨大处理能力的需求也随之激增。这导致了数据中心资本支出和业务支出的上升,而数据中心是这场数字革命的支柱。
当业界努力应对这些不断增加的成本时,许多数据中心的所有者采取了一种策略,利用 人工智能训练 支持推理成本的设备,如部署训练有素的AI模型。虽然这一方法提供了合理的短期支出管理途径,但它具有可能损害数据中心的财务稳定性和业务效率的重大风险。为了保持人工智能的可持续增长,需要改变战略--重点是平衡CAPEX和OPEX,同时确保长期设备的耐久性和效率。
现行战略:摊销和分摊费用
人工智能培训硬件在预期寿命内的摊销策略很简单。人工智能培训涉及大量的计算资源,包括顶级的GPS和 加速器 数百万美元。通过将成本分摊到几年,数据中心所有者的目的是为这种庞大的CAPEX辩护,并使高端培训设备在财务上可行。
然而,这些昂贵的硬件不仅仅停留在训练阶段,它们通常在训练阶段结束后被重新用于推理。其逻辑是,如果数据中心可以使用相同的硬件进行训练和推理,那么合并产生的收入将抵消最初的投资和持续的电力成本。从理论上讲,这是有意义的:在多个业务中摊销资本资本可以减少对财务指标的压力,从理论上讲,这将导致更大的盈利性。
然而,现实更为复杂。依靠人工智能训练设备进行推理带来了数据中心再也不能忽视的局限性。
真正的罪魁祸首:电力消耗
虽然培训设备是一项重要的资本支出投资,但在数据中心中,主要的OPEX犯罪者是培训和推理所需的耗电量。高性能的GPS和加速器产生巨大的热量,并需要大量的冷却努力,推动电力账单和对电力基础设施的压力。即使有先进的冷却技术和节能做法, 运行人工智能的动力要求 在规模上继续超过控制它们的努力。
当数据中心使用大功率训练设备进行长时间的推理时,这个问题变得更加突出。与训练不同的是,训练通常会很激烈,并且可能会断断续续地进行,推理通常是一个连续的操作,因为模型会响应实时的数据输入。这种持续的工作负荷意味着这些高容量系统运行在接近高峰的电源使用时间较长,使OPEX高于预期。
隐藏的罪魁祸首:潜伏期
在硬件处理的世界中,有一个属性经常在雷达下飞行,但却有重要的暗示:延迟。延迟是指提交查询与收到响应之间的时间延迟。虽然在训练阶段,ML的潜伏期通常是可以容忍的,但推断却是一个不同的故事。在这里,即使轻微的延迟也会产生级联影响。超过几秒钟的响应时间会削弱用户的参与,破坏用户体验,破坏实时处理的目的。
为了消除延迟,工程师可能会考虑通过添加更多的处理器来增加处理能力,以便并行运行。乍一看,这种方法看起来很合理;毕竟,更多的处理器应该等于更快的处理。然而,现实情况更为复杂。添加处理器可以显著提高性能,但它带来了一个巨大的权衡:CAPEX和OPEX的指数级增长。扩大硬件资源就像是在火上浇汽油。虽然它可以暂时解决延迟问题,但它同时将成本膨胀到潜在的不可持续的水平。
这种成本螺旋式上升不仅影响到初始投资,而且也影响到日常业务预算,导致电力消耗、维护和资源管理需求增加。对于许多企业来说,这种方法可能成为一种超越延迟时间减少带来的好处的业务交易责任。为了应对这一局面,公司需要采用更高效和更可持续的减缓延迟的方法,无论是通过专门的硬件优化、更智能的数据处理架构,还是利用旨在在不破坏预算的情况下简化实时响应的技术。
设备折旧和使用寿命方面的挑战
当前摊销策略的一个主要缺陷是,人工智能训练设备将持续足够长的时间,以便在重新设计用于推断时充分折旧。虽然这些机器是设计用于稳健的处理能力,但持续使用的磨损可能是重要的。
在训练过程中,AI硬件被推到极限,然后在连续的操作中进行推理可能不会像预期的那样持久。严酷的事实是,许多数据中心可能在这些系统完全折旧之前就面临更换这些系统的需要,导致提前的资本注销和额外的财政压力。
寻求可持续的解决办法
面对这些挑战,该行业必须寻求可持续的解决办法,在CAPEX和OPEX之间取得平衡,确保对人工智能基础设施的投资不仅是合理的,而且随着时间的推移也是持久和高效的。这就是考虑到长寿和电力效率的创新发挥作用的地方。
一个潜在的解决方案来自一个传统上与数据中心无关的来源:汽车工业。 自动级技术 长期以来一直被设计为耐久性,一致的性能和能源效率。与传统的数据中心硬件不同,自动化级系统能够经受恶劣的环境和长期的持续使用,而不会出现明显的退化。这种复原力转化为延长寿命和减少更换频率----在考虑设备摊销时的关键优势。
自动化的方法
一位原本专注于汽车行业的创新者开发了一种技术,可以重新定义数据中心如何对待他们的AI战略。通过利用设计,严格的质量和耐久性标准的汽车世界,自动级解决方案提供了几个优势,很好地配合数据中心的需要。
首先,这些系统设计用于较低的耗电量.不同于许多高端GPPS和人工智能加速器,这一技术优先考虑能源效率,而不牺牲性能。这解决了电力消耗方面的主要业务操作挑战,减少了与大规模运行人工智能模型相关的总体运行成本。
第二,这样的解决方案比传统的人工智能训练硬件寿命更长。该设备采用自动化等级的回弹能力,可以承受长期使用的严酷,而不会出现困扰传统数据中心硬件的过早磨损。这意味着摊销期延长,新硬件的资本投资减少,减轻了数据中心运营商的财务负担。
重新思考人工智能策略
人工智能的崛起并没有减缓,对数据中心的要求也没有减缓。目前通过将昂贵的训练设备重新用于推理来摊销昂贵训练设备的战略,被证明是一种短视的方法,低估了电力消耗和硬件寿命的实际影响。为了避免不可持续的财政和业务压力,必须进行战略转变。
将自动化技术解决方案纳入人工智能基础设施规划可以提供急需的缓解。虽然这些系统可能会有一个需要重新调整预算分配的初始资本支出,但长期的好处--减少电力消耗、延长设备寿命和更平衡的摊销时间表--超过了预付费用。
最后的想法
随着数据中心继续推动人工智能革命,该领域的领导人必须重新考虑他们的战略,以管理与扩展人工智能相关的隐藏成本。目前通过在推理中共享使用来分摊培训设备和抵消成本的做法忽略了关键的OPEX挑战和硬件寿命的现实。
通过转向优先考虑效率和耐久性的解决方案,数据中心可以为人工智能的未来建立一个更可持续、更具成本效益的基础。前进的道路不仅要求在人工智能模型中进行创新,而且还要求在驱动这些模型的基础设施中进行创新。