人工智能和光纤技术的不断进步，促进了数据中心的蓬勃发展

时间：2020-07-08 17:27:01

关键字：人工智能数据中心

手机看文章

扫描二维码
随时随地手机看文章

[导读] 人们通常从电影中了解一些似乎与现实相差甚远的概念，但这些概念却很快融入人们的日常生活中。1990年上映的一部由阿诺·施瓦辛格主演的电影中，一辆名为“Johnny Cab”的无人驾驶汽车让人印象深

人们通常从电影中了解一些似乎与现实相差甚远的概念，但这些概念却很快融入人们的日常生活中。1990年上映的一部由阿诺·施瓦辛格主演的电影中，一辆名为“Johnny Cab”的无人驾驶汽车让人印象深刻，可以将人们送到任何他们想去的地方。如今，大多数大型汽车公司都在投入巨资将这项技术带给大众。

回溯到1968年，人们通过HAL9000对人工智能（AI）有了一些了解，HAL9000是一部主题为太空漫游的电影中的一台有感知的计算机。HAL9000能够实施语音和面部识别、自然语言处理、唇读、艺术欣赏、解释情感行为、自动推理，甚至可以下棋。

而在过去几年，人们已经确定人工智能成为日常生活中不可或缺的一部分。例如可以采用智能手机查询旅行目的地的天气情况，虚拟助理可以播放人们喜欢的音乐，人们的社交媒体帐户将根据其个人喜好提供新闻更新和广告。

但是在这些背景中发生了更多的事情，人们并不了解有助于促进健康甚至拯救生命、语言翻译、新闻提要、面部识别、更加复杂疾病的准确诊断，以及加速药物开发等企业开发和部署人工智能的一些应用。根据调研机构Gartner公司的预测，到2022年，人工智能衍生的商业价值预计将达到3．9万亿美元。

那么人工智能技术如何对数据中心产生影响？早在2014年，谷歌公司就在其中一个数据中心设施中部署了Deepmind AI（使用机器学习和人工智能的应用程序）。其结果是，能够将数据中心用于冷却的能源减少40％，这相当于在考虑到电气损耗和其他非冷却效率之后，PUE值减少了15％，这也产生了该数据中心有史以来最低的PUE。基于这些显著的成本节省，谷歌公司希望在其他数据中心中部署该技术，并建议其他公司也这样做。

Facebook公司秉承的使命是“让人们有能力建立社区，让世界更紧密地联系在一起”，Facebook公司的应用机器学习白皮书从数据中心基础设施视角进行概述，它描述了支持全球范围内机器学习的硬件和软件基础设施。

为了让人们了解人工智能和机器学习需要多少计算能力，百度公司硅谷实验室的首席科学家Andrew Ng表示，培训百度的中文语音识别模型不仅需要4TB的训练数据，还需要20个计算机的exaflops计算量，也就是整个培训周期内需要200亿亿次数学运算。

但是对于数据中心基础设施呢？人工智能将如何影响企业希望构建、租赁或升级所有不同规模和类型的数据中心的设计和部署，以适应这种创新的、节约成本，甚至挽救生命的技术？

机器学习可以在一台机器上运行，但由于数据量惊人，通常在多台机器上运行，所有这些都相互关联，以确保在培训和数据处理阶段获得持续通信、更低的延迟，绝对不能中断的服务。人们对越来越多的数据的渴望推动了满足需求带宽量的指数增长。

这些带宽需要使用更加复杂的架构设计，并在多个数据中心设施内部和跨多个设施进行分布，其中需要采用脊柱和叶脊网络，而人们正在关注超级叶脊网络，为所有复杂的算法提供在不同设备之间流动数据的高速公路，并最终回到受体。

数据中心的技术部署选项

这就是光纤在确保人们上传图片或视频提供给全世界观看、分享和评论方面发挥关键作用的地方。光纤已经成为数据中心基础设施的事实上的传输媒介，这要归功于其高速和超高密度功能。随着人们向更高的网络速度迁移，还在混合部署中引入了全新的复杂性，也就是将采用哪种技术？

传统的三层网络使用核心、聚合和边缘交换来连接数据中心内的不同服务器，其中服务器间流量通过活跃设备在南北方向上相互通信。然而现在，人工智能和机器学习可以带来高计算要求和相互依赖性，更多的这些网络是使用两层脊柱和叶脊网络实现的，其中服务器由于超低延迟需求通过生产和培训网络而在东西方向上相互通信。

自从2010年IEEE推出40G和100G网络传输技术标准以来，已经出现了许多竞争性的专有解决方案，这些解决方案让那些不确定要遵循哪条路径的用户有些困惑，例如是否采用SR、多模、LR、单模等技术。40G和100G这两种技术都使用一对光纤在两个设备之间传输信号。无论人们使用哪种设备或在该设备中安装哪个收发器，这都是通过两根光纤进行的简单数据交易。

但是IEEE批准了40G以及更快的网络解决方案之后，其竞争对手之间改变了游戏规则。现在人们正在研究使用标准认可的或专有的、不可互操作的WDM技术的两种光纤，以及使用8芯光纤（4根传输、4根接收）的并行光学器件的标准认可，或多源协议（MSA）和工程技术接收），或20芯光纤（10根传输，10根接收）。

因此现在已经简化了一切，以下进行简单的总结。

如果企业希望继续使用经过标准认证的解决方案，并降低光学器件成本，因为企业不需要单模光纤的长距离功能，那么可以选择多模并行光学器件，这样就可以突破更加快速的40G或100G开关端口分为较小的10或25G服务器端口。

如果企业希望延长已安装的双工光纤的使用寿命，并且不介意与其首选硬件供应商保持联系而不需要互操作性，并且不需要更长的距离，则可以选择其中一种多模WDM解决方案。

大规模部署人工智能的大多数科技公司正在为当今和未来的网络设计单模并行光纤解决方案。这有三个简单的原因。

（1）成本和距离

目前的市场趋势是首先开发和发布并行光纤解决方案，WDM解决方案紧随其后，因此并行光学解决方案的数量要高得多，从而降低了制造成本。与2km和10km WDM解决方案相比，它们还支持更短的距离，因此企业不需要部署过多复杂的组件来冷却激光器，并在两端复用和解复用信号。虽然人们已经看到这些“超大规模”数据中心设施的规模，但调查数据显示，在这些设施中单模光纤的平均部署长度尚未超过165m，因此无需购买更昂贵的WDM收发器来驱动他们不需要支持的距离。

并行单模也比WDM解决方案使用更少的电能，正如之前从谷歌的例子中看到的电源使用情况，为了减少数据中心最大的运营成本，任何可以做的事情都是一件好事。

（2）灵活性

部署并行光学器件的主要优势之一是能够采用高速交换机端口，例如40G，并将其分解为4×10G服务器端口。端口突破提供了巨大的规模经济，因为突破低速端口可以显著减少电子设备的机箱或机架安装单元的数量从3：1（并且数据中心资产并不便宜）并且使用更少的电能，需要更少的冷却设施，并且可以进一步降低能源费用，调查数据表明这相当于单模解决方案节省了30％的成本。光纤收发器供应商还确认，所有销售的并行光纤收发器中的很大一部分都是为了利用这种端口分支功能而部署的。

（3）简单明晰的迁移

主要交换机和收发器供应商的技术路线图为部署并行光学器件的客户显示了非常清晰和简单的迁移路径。而大多数科技公司都在遵循这条路线，所以当光学器件可用，并且从100G迁移到200或400G时，它们的光纤基础设施仍然存在，无需升级。那些决定使用双工双光纤基础设施的企业可能会发现自己希望升级到100G以上，但WDM光纤系统可能无法在其迁移计划的时间范围内提供。

对数据中心设计的影响

从网络连接的角度来看，这些网络是高度网状的光纤基础设施，以确保没有一台服务器相互之间有两个以上的网络跃点。但是这样的带宽需求甚至从脊柱交换机到叶脊交换机的传统3：1超额配置比率还不够，并且更典型地用于来自不同数据大厅之间的超级脊柱的分布式计算。

由于交换机I／O速度的显著提高，网络运营商正在努力提高利用率，提高效率，提供超低的延迟。

此外，在谷歌公司最近宣布推出最新的人工智能硬件之后，传统的数据中心设计转向了另一个转变，这是一种名为Tensor Processing Unit（TPU 3．0）的定制专用集成电路（ASIC），在巨大的吊舱设计中，将其功能提高了8倍。但是，在芯片中加入更多的计算能力也会增加驱动它的能量，从而增加热量，这就是为什么数据中心采用液体冷却为芯片提供冷却的原因，因为TPU 3．0芯片产生的热量已经超出了之前数据中心冷却解决方案的限制。

结论

人工智能是下一波业务创新浪潮。它可以带来运营成本节约，额外的收入流，简化的客户互动，以及更高效的数据驱动的工作方式，其具有很多优势。最近的一次小组讨论证实了这一点，专家当时表示使用聊天机器人的网站如果效率不高且客户关注度不够，客户就会放弃对话，并且很难再次合作。

因此，人们必须接受这项技术并将其用于其业务优势，这也意味着采用不同的方式思考数据中心的设计和实施。由于专用集成电路（ASIC）的性能显著提高，人们最终会看到I／O速度的提高，甚至更深层次地推动网络连接的发展。企业的数据中心需要超高效的高速光纤网络、超低延迟、东西方向的脊柱和叶脊网络，以适应企业日常生产流量，同时支持机器学习培训。

人们已经看到了主要的科技公司如何接受人工智能以及如何部署并行单工模式帮助他们实现比传统双工方法更高的资本和运营成本，传统的双工方式从一开始就承诺降低成本。但是随着数据中心的运营以及继续发展，专业人员的习惯和交流方式在不断变化，提高了网络速度，并增加了复杂性。现在安装正确的布线基础设施解决方案将使企业从一开始就获得更大的经济利益，保留并吸引更多客户，并使企业的数据中心设施能够蓬勃发展。