当前位置:首页 > 工业控制 > 电路设计项目集锦
[导读]浮点 32 位(FP32):这是模型在使用大型数据中心的 GPU 上进行训练所依据的数据格式。它的精度极高,但一个硬件的 FP32 乘法器会占用大量的物理芯片空间,并且消耗大量的电力。

1. 介绍

诺德半导体公司推出了 nRF54L20B 芯片,该芯片配备了专门的“轴向神经处理单元”,并宣称其性能有了大幅提升。

我想要探究硅材料的物理极限。

这东西在一个时钟周期内实际上能够完成多少次“乘法累加”运算?

2. 了解轴突神经元处理单元(Axon NPU)

2.1 为何阿森神经网络处理器采用 INT8 格式

Axon NPU 并非浮点处理器。它专为 8 位整数 INT8 操作进行了优化。

要理解神经处理单元(NPUs),你就得了解在硅片上进行数学运算的实际成本。神经网络本质上就是由大量乘法和加法运算(即乘累加操作)构成的巨大网格。

浮点 32 位(FP32):这是模型在使用大型数据中心GPU 上进行训练所依据的数据格式。它的精度极高,但一个硬件的 FP32 乘法器会占用大量的物理芯片空间,并且消耗大量的电力。

整数 8(INT8):一个 INT8 乘法器体积很小。你可以将数十个这样的乘法器压缩到一个单个 FP32 乘法器所占用的空间内。而且它的能耗也仅为前者的一小部分。

内存瓶颈:电池电量消耗最大的环节并非进行计算,而是将数据从内存(RAM)传输至处理器。一个 INT8 类型的权重占用 1 个字节。一个 FP32 类型的权重则占用 4 个字节。采用 INT8 格式后,您的内存带宽将立即提升四倍,并使内存功耗降低 75%。

2.2 为何 Axon 系列 NPU 硬件不支持浮点运算

因此,量化过程(将一个 32 位浮点数模型压缩为 8 位整数)是用于在任何消费级设备上运行人工智能的行业标准做法。

它本质上是由大量的 MAC(乘法累加)单元组成。在单个时钟周期内,它能够完成数十次乘法和加法运算,而这些运算如果按照常规顺序进行的话,标准的 Cortex-M33 芯片则需要数十个时钟周期才能完成。

要高效地使用它,工程师们必须对人工智能模型进行量化处理。

想想那些“差不多就行”的任务。这样一来,您就不需要使用高精度浮点数来检测咳嗽、手势或振动模式了。在嵌入式或节能型边缘人工智能软件开发中,工程师们决定以牺牲一点点数学精度为代价,换取 10 到 15 倍的能耗降低。

由于北欧芯片采用的是纽扣电池供电,因此安森智能处理器(Axon NPU)在硬件方面没有为浮点运算提供任何支持。因为存储空间太过宝贵,所以无法为此预留资源。

如果在 nRF54LM20B 上尝试使用浮点层来运行模型,那么神经处理单元(NPU)会直接拒绝处理,并将数学运算任务重新交回给标准的 Arm Cortex-M33 CPU,这样一来会降低能效和运行速度。

2.3 通过 AI 进行唤醒的架构

在普通的微控制单元(MCU)中,中央处理器(CPU)与诸如 SIM 模块之类的附加模块常常会争夺同一条总线以访问内存。这就会造成“瓶颈”现象。

Axon NPU 自身拥有独立的本地内存/缓存以及通往系统内存的专用通道。它使用专门的 DMA(直接内存访问)控制器来获取数据(例如音频样本或惯性测量单元读数),而无需向 CPU 请求协助。

NPU(神经处理单元)已为特定的神经网络层“预设”了逻辑。如果您的模型使用这些特定的逻辑,就能运行得非常快。如果使用的是其他逻辑,则会自动切换回速度较慢的 CPU 进行处理。

支持的层和 CPU 回退机制

最重要的“直观”特性就是“硬件触发”功能。

通过这样做,你就可以建立起一个链条:

Cortex-M33 处理器可以进入深度睡眠状态(此时几乎不消耗电力),而神经处理单元则在一旁“监视”。只有当神经处理单元的推理结果超过一个置信度阈值(例如,“我有 90% 的把握那是一只狗在叫”)时,它才会“轻轻一动”来唤醒处理器。

这就是“基于人工智能的唤醒功能”。

2.4 阿森诺神经处理单元的典型应用场景

它是为那些需要依靠电池供电运行 5 年的 AI 工作负载而设计的。

一种森林火灾探测器,能够监听特定的锯木机声或树木倒下的声音。

一种泄漏探测器,能够“监听”高压管道泄漏时发出的超声波嘶嘶声。

2.5 TFLM 集成与编译器流水线

阿森诺神经处理单元并非直接运行 C 代码,而是运行经过编译的“图”形式的数据。

Nordic 提供了一款编译器,它能够将 .tflite 文件转换为面向神经处理单元(NPU)的指令流。

因为它采用了 TFLM 生态系统,所以您可以使用标准工具 Edge Impulse、TensorFlow 和 Keras。

3 理论性能与架构背景

为了对 Axon 系统级芯片在 nRF54LM20B 上的性能进行评估,我需要同时参考理论上的“峰值”数值以及编译器实际提供的“有效”性能。

由于 Axon NPU 是一种专有架构(从 Atlazo 购买而来),因此 Nordic 主要通过相对速度提升来展示其性能(例如,“比 CPU 快 15 倍”)。

然而,根据技术规格和架构分析,我的教程详细介绍了我是如何估算和测量这些数值的。

3.1 阿西翁 NPU 技术参数

频率:128 兆赫(0.128 千兆赫)。

MACs/周期:尽管诺基亚尚未在公开的数据手册中公布原始的门级 MAC 计数,但对阿塔佐阿森系列架构的分析以及诺基亚宣称的“15 倍提速”表明,该核心是为并行 INT8 处理进行了优化的。

3.2 GOPS(每秒运算次数)计算值

通常,每秒吉字节操作数(GOPS)的计算公式为:

注意:我乘以 2 是因为 1 个 MAC(乘法-累加)被视为 2 个操作(1 次乘法 + 1 次加法)。

3.3 阿塔拉佐轴向 RDLA 架构

Axon NPU 是基于可重构深度学习加速器(RDLA)架构的。与普通的数字信号处理器(DSP)不同,它是一种领域专用架构(DSA)。

它并未使用标准的 RISC-V 或 ARM 指令集。而是使用由 Axon 编译器生成的定制指令流。

这是一种“流处理器”。它通过将权重和中间“特征图”存储在本地高速缓存(SRAM)中来减少数据传输量,而不是频繁地访问系统内存。

最初的阿塔洛兹架构(具体而言是 AZ-N1 系列)具有可扩展的 MAC 阵列。对于 nRF54L 系列,诺帝克对其进行了优化,使其达到了超低功耗的“最佳状态”:

精度:针对 INT8 特性进行了优化。在芯片中支持“字节级”量化(INT4/INT1),不过目前 Nordic 工具链更侧重于 INT8 以确保稳定性。

并行性:根据阿塔佐公司的设计规范,该架构在不同配置下每周期能够执行 64 到 128 次乘法运算。

基于阿塔洛兹的知识产权基础:

MACs / 周期 & GOPS:阿塔拉佐轴突可重构深度学习加速器(RDLA)最初是基于一个高度并行的 MAC 阵列设计的,该阵列针对低于毫瓦的功耗进行了优化。虽然诺德公司尚未公布 nRF54L20 特定硅实现的精确 MAC 阵列大小,但我们将在本教程结束时确定实际规格;通常,这个功率等级(在活动状态下消耗约 3 毫安)中的神经处理单元(NPUs)使用 32 或 64 MACs/周期的阵列。在 128 MHz 的系统时钟速度下,这理论上可达到约 8 到 16 GOPS(每秒十亿次运算)[Prnnewswire.com 诺德新闻]。

原生硬件加速:编译器会将特定的数学运算直接映射到 Axon 硅片上。如果您的模型使用了这些运算,那么就能实现 15 倍的性能提升。

它们包括:

1D 卷积和 2D 卷积(针对逐点运算有特定的加速处理)[挪威学院 nRF54L]

深度卷积(不使用通道乘法)

全连接(密集)层

池化(最大值/平均值)

原生硬件激活函数:ReLU、ReLU6 和 LeakyReLU。

CPU 回退:诸如 Softmax、Tanh 或 Sigmoid 等操作并非由 Axon 硅片直接实现加速,而是由 Axon 编译器将其透明地交还给 Cortex-M33 CPU。如果您的模型高度依赖这些操作,那么您所进行的基准测试中的 GOPS(每秒运算次数)将会大幅下降。

数据类型:该神经处理单元(NPU)专为 INT8 量化模型进行了优化(同时提供 INT32 模型输出的选项)。

3.4 官方性能声明

nRF54LM20B 的官方性能指标:

加速与 CPU 相比:安森智能神经网络处理器(NPU)执行人工智能推理的速度比在集成的 128 MHz 的 Arm Cortex-M33 上运行完全相同的模型快多达 15 倍。

能源效率与中央处理器:在安森智能处理器上运行模型的能耗效率比基于 Cortex-M33 的处理器高出多达 10 倍。但我无法证明这一点,因为我没有诺帝克公司的功率分析套件 II。

竞争性对比:北欧公司表示,Axon 神经处理单元的性能比“最接近的竞争对手的边缘人工智能解决方案”高出 7 倍,能源效率则高出 8 倍,且其功耗预算与后者相同。

目前我还无法给出确切的对比结果或证明;我们今天所能确定的只是神经处理单元(NPU)的速度与中央处理器(CPU)的速度相比情况如何。

3.5 北欧特色工具

Nordic 提供了专门的工具,可针对定制模型精确提取 MAC 使用率和效率。我无需手动计算 GOPS:

北欧边缘人工智能实验室(预计于 2026 年 1 月发布):这款基于网络的工具可用于构建模型(或使用其文本转唤醒词生成器)并直接为 Axon NPU 进行编译。在您将设备烧录之前,它会提供预估的延迟和占用空间的基准测试。

nRF Connect SDK 的边缘人工智能扩展包(v2.0 及以上版本):其中包括 Axon 编译器。当将一个.tflite 模型通过该工具传递时,它会生成一份性能分析报告,详细列出哪些层是通过硬件加速实现的,并给出精确的毫秒级执行时间。我将使用此扩展包来进行基准测试以及与 Axon NPU 进行相关工作。

PC 模拟器:该工具包含在 SDK 中,无需使用实际的 nRF54LM20B 开发套件即可获取神经处理单元的性能和延迟评估结果。我将使用这个 PC 模拟器进一步了解相关情况,因为它看起来是一个非常有趣的工具。

无论是查看一款仅有 9 毫瓦功耗的北欧阿克森 NPU,还是在一款顶级笔记本电脑内部看到的 30 瓦的英特尔酷睿 NPU,它们在优化模式上都完全一致:都依靠 INT8(8 位整数)数学运算来进行人工智能推理。

4. 构建“MAC-粉碎者”基准模型

注意:我使用的操作系统是 Mac OS TAHOE 26.4

您需要一个已安装了 TensorFlow 的标准 Python 环境。

4.1 配置 Python 环境

下载适用于 macOS 系统的 Miniforge:

然后进行安装:

按照提示操作,输入“yes”来启动它,然后关闭并重新打开你的终端。

创建一个环境,其中使用的 Python 版本要稳定且稍旧一些(比如 3.11 版):

现在启动它:

现在安装标准的 TensorFlow:

4.2 生成严格的 INT8 TFLite 模型

为了测试神经网络处理器(NPU)的极限性能,我需要一个纯粹的数学运算任务。于是,我选择了一个 256x256 的全连接(密集型)层。

它总共需要进行 65536 次 MAC 操作,并最终生成 64KB 的权重数据。其大小足够小,能够完美地存储在 nRF54L 的超高速内部 SRAM 中,而不会对主 RAM 造成瓶颈影响。

出于这个目的,我编写了一个简短的 Python 脚本,名为“generate_benchmark_model.py”

使用 TensorFlow/Keras 生成一个严格的 INT8 量化模型 axon_mac_smasher_int8.tflite

将以下内容粘贴到 generate_benchmark_model.py 文件中。

NPU 只能进行 8 位整数运算,因此强制使用 INT8 格式至关重要,这样可以防止 NPU 拒绝该模型并将其重新返回给速度较慢的 CPU。

通过这样做,我能够精确控制模型的数学尺寸,并强制进行严格的 INT8 量化,从而使得 Axon NPU 能够 100% 完成所有操作,而无需回退到 CPU。

4.3 运行模型生成脚本

将此脚本保存为“generate_benchmark_model.py”,然后运行它。

它并没有损坏,只需耐心等待即可:

您将会得到类似于以下的输出结果:

最重要的内容在最后:

注意查看您的输出中这一确切的行内容:

这表明该模型在 Axon NPU 上的运算完全依赖于 8 位整数数学运算。

目前,那个.tflite 文件就存在我 Mac 电脑的硬盘里。要使用 Zephyr 把它传输到 nRF54LM20B 上,我需要将其转换为一个 C 数组,以便 Axon 编译器能够将其编入芯片的闪存中。

4.5 为何 256×256 是合适的测试尺寸

我认为有必要对这段 Python 代码中的几个关键细节进行解释。

我之所以选择 256 作为输入和神经元的数量(从而形成一个矩阵),是因为在对神经网络处理器进行基准测试时,存在四项严格的硬件规定。

以下是 256 成为此次精确测试“神奇数字”的原因:

1. 它总共生成了 64 千字节的权重(即 SRAM 的最佳容量范围)

在 INT8 模型中,每一个权重(即神经元之间的连接)都恰好占用 1 个字节的内存空间。

nRF54LM20B 具有 512KB 的总内存,但 Axon 系统级处理单元(NPU)拥有其自身的内部超高速本地缓存(紧密耦合内存),因此无需等待主系统总线。64KB 的容量足够小,可以完全容纳在这一超高速内存中。

如果我选择 1024x1024(即 1 兆字节)的分辨率:那将无法装入芯片中。

如果我选择 512x512(256KB):这可能会迫使神经处理单元从速度较慢的主内存中获取数据,这意味着您所进行的测试是针对内存速度的,而非数学运算速度。而 64KB 则能确保我们纯粹是在测试芯片的数学运算引擎。

2. 完美的硬件对齐(2 的幂次)

NPU 设计采用了以 2 的幂次方(通常为 16、32 或 64 个 MAC)为单位的物理 MAC 数组。如果我给一个 NPU 设定一个奇数的输入大小,比如 250,那么硬件仍需将 256 个字节加载到其 32 字节的内存通道中,用零填充空余空间(进行填充)。这会浪费时钟周期,并破坏计算的准确性。

因为 256 能被 16、32、64 和 128 整除,所以神经处理单元(NPU)硬件能够以 100% 的效率运行,没有任何多余的时间消耗。

3. 隐藏“唤醒”操作的开销

当泽弗尔实时操作系统指示神经处理单元启动时,会有一个短暂的延迟(包括设置时间、DMA 配置以及触发硬件中断)。这一过程所消耗的额外时间可能只有几十个时钟周期。

如果我选择 16x16(256 个乘法运算)的配置:那么神经处理单元(NPU)完成计算的速度会非常快,以至于我的代码中的“泽弗尔”计时器大部分时间都只是在测量操作系统本身的开销,从而导致生成的基准测试结果显得异常缓慢。

在 256x256(65,536 操作)的情况下:计算过程耗时过长,以至于微小的操作系统开销变成了一个统计上的舍入误差,从而让我得到了真实的硬件运行速度。

4. 数学

当我运行“泽菲尔”基准测试并查看总时钟周期数时,65536 这个数字很容易在脑海中进行除法运算,从而得出物理 MAC 数组的大小:

如果需要大约 2000 个周期:

如果需要大约 1000 个周期:

因此,256 这个数字是经过精心计算得出的,能够完美地填充阿森(Axon)神经处理单元的数据通道。我希望如果阿森的工程师们能够阅读这份报告,或许他们能够对此发表意见,从而验证我的假设。

稍后我们将使用诺帝克·阿克森编译器来运行这个.tflite模型。

5. 准备北欧工具链和硬件设备

5.1 连接 nRF54LM20-DK

将开发套件连接至调试器的 USB 接口,并将电源开关拨至“开启”位置。

5.2 打开“nRF Connect for Desktop”程序

开放式板卡配置器。

选择设备。

选择已连接的电路板。

现在,您可以查看整个电路板的配置情况。

这是我的纸质版。

现在,关闭“配置板”工具,并返回到“应用程序”窗口。然后打开“工具链管理器”。

以下是可用的工具链列表。您需要使用命令行工具安装 nRF Connect SDK v3.0.0-preview2 版本。点击“使用命令行安装”按钮后,您将被重定向到 nRF 的文档页面;不过,由于他们的文档可能非常复杂,我在 5.3 节中提供了一个简化的链接。

5.3 验证 nrfutil 的安装情况

请输入以下命令:

查看输出结果:

5.4 安装 SDK 管理器

请输入以下命令:

查看输出结果:

5.5 安装所需的 nRF Connect SDK 预览版

请输入以下命令:

查看输出结果:

SDK 的安装可能需要一些时间,请您耐心等待,并仔细检查输出结果以查看是否有任何错误。

完成可能需要长达 1 小时的时间。

6 为轴突神经处理单元编译模型

北欧的工程师们没有让中央处理器去读取标准的 TensorFlow 数组,而是开发了“边缘人工智能附加组件”。

Axon 的 NPU 无法读取标准的 TensorFlow.tflite 数组。它仅使用其专有的“硬件机器代码”进行通信。

北欧公司在 Zephyr 中内置了一个秘密编译器。当你点击“构建”按钮时,Zephyr 会拦截你的.tflite 文件,将 TensorFlow 的数学运算转换为 Axon 硬件指令,并生成其特有的.h 文件,该文件包含专门针对 NPU 的内存指针(而不仅仅是原始字节)。

您已经有了 axon_mac_smasher_int8.tflite 文件。不能通过使用 xxd 将其转换为一个简单的 C 数组,而是必须通过 Axon NPU 编译器对其进行处理。该编译器包含在您刚刚安装的边缘人工智能附加组件中。

让我们来分解一下这些数字:

1. Cortex-M33 实时性能(每周期 0.16 个 MAC 操作)

该中央处理器执行 65,536 次操作共耗时 395,748 个周期。

如果将这个数值除以 65536(即 395748 / 65536),那么这意味着 CPU 要进行一次单一的 MAC 操作就需要大约 6 个完整的时钟周期。

为什么?我想是因为每次进行乘法运算时,中央处理器都必须:

计算内存地址。

通过总线加载输入字节。

将重量字节通过总线加载。

将它们相乘。

将物品添加到存储器中。

增加循环计数器的值,并检查是否需要进行分支操作。

2. 安森 NPU 现实体验(每周期 4.06 - 4.10 每秒百万次运算)

该神经网络处理器(NPU)大约耗时 16000 个周期。

我仍然不确定为何每次计数结果都会存在微小的差异——有时是 16110,而其他时候则会稍多或稍少一些。人工智能分析认为这是由于动态时钟缩放、缓存命中与未命中、流水线停顿、分支预测、后台中断以及总线争用等因素造成的。这很可能是正确的。

NPU 在循环计数器、分支操作或指令执行上没有浪费任何一毫秒的时间。它将 32 位内存总线保持开启状态,并在每个时钟周期内直接将 4 个权重数据输入到其硬件数学运算阵列中,达到了芯片上铜质内存线路所允许的绝对物理“光速”限制,或许确实如此。

结论:大约快 24 倍至 25 倍

北欧公司的营销团队宣称,NPU 的运行速度“快了 15 倍”,因为他们是通过使用完整的复杂模型(比如音频关键词识别)来进行基准测试的,而这些模型存在一定的 CPU 回退开销。

但我刚刚构建了一个纯粹、未经任何改良的裸机微基准测试程序。摒弃了所有操作系统带来的额外开销后,安索纳神经网络处理器的原始芯片性能实际上比 Cortex-M33 快近 25 倍,在处理密集型人工智能层时表现更为出色!

目标:对全新未发布的“阿森”神经网络处理器进行基准测试。

发现:发现北欧公司删除了 TFLM 并迫使开发者使用硬件机器代码。

揭秘过程:深入研究隐藏在背后的 Python 编译器,向其输入自定义的 config.yaml 文件,并提取出原始的.h 文件。

陷阱:与 ARM TrustZone(/ns 与安全模式)的对抗、GCC 编译器优化导致代码丢失,以及一个故障的计时器。没错,我没有提及这些内容;您所看到的只是最终能正常运行的代码,而没有包含我反复试验和错误累积的全部过程。

高潮部分:两两对比展示的“记忆墙”效果(4.06 - 4.10 限时)以及令人惊叹的 24 - 25 倍性能提升。

如何设计良好的基准测试

关于基准设计的我的关键感悟。

“标杆管理的红线”:严格的隔离措施

基准测试的首要原则是“隔离”。

您只需测量您所要测试的具体硬件或软件,而绝不要测量其他任何东西。如果您未能完全隔离目标对象,那么您最终得到的将会是“杂音”。

在这段旅程中,我必须有条不紊地剔除一切干扰因素:

软件噪声:我摒弃了 TensorFlow Lite 的 C++ 解释器,因为它存在软件开销。于是我转而采用“裸机”方式来直接测量硬件性能。

编译器噪音:编译器(如 GCC)的设计初衷是通过提前知晓答案的方式“作弊”,从而跳过数学运算。我不得不使用不可预测的硬件时钟(熵)以及盲目的函数指针来将硅片的实际执行过程与编译器的捷径区分开来。

测量噪声:使用操作系统级别的计时器(例如 32kHz 的睡眠计时器)会引入毫秒级的误差。因此,我不得不使用芯片内部的 128MHz 周期计数器来精确测量数学运算开始和结束所花费的纳秒时间。

核心架构:两大限制(计算与内存)

要明白你的基准测试所传达的信息,你就得了解现代计算机的基本架构(即冯·诺依曼架构)。

您进行的每一次基准测试都会遇到以下两种物理限制之一:

“计算之墙”(计算受限型)

数学运算单元(算术逻辑单元或矩阵运算阵列)处理数据的物理上限速度。

当您执行运算时:此时数据已存放在处理器的内部寄存器中。数学引擎已满负荷运转,而内存总线则在等待运算完成。

示例:计算圆周率的小数位数,或者运行卷积层(其中一个仅有 9 个字节的微小图像滤波器会被重复使用数百万次)。

“记忆墙”(记忆束缚型)

铜质导线(即内存总线)传输数据从随机存取存储器到数学运算单元的最高速度的物理限制。

当它运行时:此时处理器运行速度极快,能够立即完成计算,并且会处于闲置状态,等待从内存中获取下一条数据字节的到来。

示例:我们的 65,536 个乘法器密集层!神经网络处理器遭遇了内存瓶颈,导致每周期的乘法器操作数为 4.10 个。

如果您想在未来对任何芯片进行性能评估,那就按照我的方法去做吧:

1. 定义工作负载(同类比较)您必须确保两个系统执行完全相同的物理工作量。我让安森 NPU 和 Cortex-M33 都执行总共 65,536 次乘法累加运算。

2. 确保不可预测性(击败作弊者)切勿使用全为 0 或 1 的数组进行基准测试。如果输入数据是可预测的,CPU 会对其进行缓存,或者编译器会在构建过程中对其进行处理。始终为基准测试提供随机、动态的数据,这样硬件就会被迫发挥出最佳性能。

3. 调整计时器

始终确保您使用的是相同的秒表进行测量。一开始,我使用的是 NPU 128 MHz 的时钟,而 CPU 使用的是 32 kHz 的时钟,这导致了完全错误的结果。尽可能在接近硬件寄存器的地方对代码进行计时,避免在计时循环中使用像 printf 或 sleep 这样的高级操作系统函数。

4. 计算“每周期”真实值

切勿仅仅关注“以毫秒为单位的运行时间”。运行频率为 1GHz 的芯片在毫秒级完成任务的速度总是会比运行频率为 100MHz 的芯片更快,即便其架构更差。通过将总操作次数除以总时钟周期,您就能得出芯片的真正架构效率,该效率完全不受其时钟速度的影响。

本文编译自hackster.io

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除( 邮箱:macysun@21ic.com )。
换一批
延伸阅读

人工智能(AI)正成为一股变革性力量,深刻塑造着我们的日常生活。从实时监测健康状况的可穿戴设备,到优化行车安全的自动驾驶,人工智能正在彻底改变着我们与世界互动的方式。智能工业设备可以自主制定维护检修计划。随着设备线上线下...

关键字: 边缘AI 半导体 GPU

当生成式AI、大模型训练进入规模化应用阶段,算力需求的指数级爆发正将数据中心推向电力消耗的新峰值。数据中心作为AI产业的“算力底座”,其电力支撑能力直接决定着AI技术的落地速度与应用边界。如今,全球数据中心耗电量已占全球...

关键字: 算力 数据中心 电力

拉脱维亚里加2026年4月17日 /美通社/ -- 波罗的海地区领先的数据中心运营商之一Delska今天正式启用了EU North Riga LV DC1——一个专为人工智能...

关键字: 数据中心 INA AI DC

伊利诺伊州莱尔市 – 2026年4月16日 – 全球电子设备领军企业暨连接技术创新企业 Molex 莫仕宣布达成收购 Teramount Ltd. 的协议。该公司总部位于以色列,专注于开发可拆卸光纤直连芯片互连解决方案,...

关键字: 数据中心 电力 光子耦合器

伊利诺伊州莱尔市 – 2026年4月14日 – 全球电子设备领军企业暨连接技术创新企业 Molex 莫仕于3月在美国洛杉矶举行的全球领先的光缆大会 OFC 2026 上,演示了使用其下一代 XPO 互连解决方案进行的实际...

关键字: AI 数据中心 光缆

客户受益于现货供应的服务器解决方案,这些方案针对计算、AI、存储及智能边缘工作负载进行了优化配置 加利福尼亚州圣何塞2026年4月10日 /美通社/ -- Supermic...

关键字: MICRO SUPER GO GPU

Counterpoint Research 最新数据显示,2026 年第一季度,全球智能手机出货量同比下滑 6%。DRAM 与 NAND 存储芯片短缺引发供应链紊乱、成本飙升,成为拖累市场的核心原因。

关键字: 存储芯片 智能手机 AI 数据中心

AI大算力时代,算力需求持续释放,数据中心等基础设施建设不断提速,加之政策端对高功耗智算中心的严苛能效要求,使得液冷技术逐渐成为突破散热瓶颈的关键方案,迎来强劲的上升周期。

关键字: AI 算力 数据中心

平台此次取得多项最新进展,可消除易于中断进程的升级周期,提供跨混合环境的灵活性,支持 AI 的全域化,同时加快整个数据资产的分析。加利福尼亚州圣何塞, April 08, 2026 (GLOBE NEWSWIRE) -...

关键字: AI 数据中心 COM 进程

【2026年4月9日, 中国上海讯】近日,英飞凌科技(以下简称“英飞凌”)与西安为光能源科技有限公司(以下简称“为光能源”)正式达成深度合作,携手开启能源技术革新新篇章。双方将依托英飞凌领先的1200V TRENCHST...

关键字: 固态变压器 碳化硅 数据中心
关闭