当前位置:首页 > 芯闻号 > 厂商文章
[导读]在深度学习中,为了提升数据传输带宽和计算性能,经常会使用NCHW、NHWC和CHWN数据格式,它们代表Image或Feature Map等的逻辑数据格式(可以简单理解为数据在内存中的存放顺序)。本文以百度的AI端上推理设备EdgeBoard为原

在深度学习中,为了提升数据传输带宽和计算性能,经常会使用NCHW、NHWC和CHWN数据格式,它们代表Image或Feature Map等的逻辑数据格式(可以简单理解为数据在内存中的存放顺序)。本文以百度的AI端上推理设备EdgeBoard为原型,介绍EdgeBoard选择NHWC数据格式的技术考量。

EdgeBoard简介

EdgeBoard是百度基于FPGA芯片研发的嵌入式AI解决方案,高性能的加速引擎可提供3.6Tops的强大算力,完整的嵌入式参考设计使硬件集成轻松便捷。目前EdgeBoard提供了FPGA软核和计算卡模块两种形态供硬件集成,面向项目部署也提供了抓拍机和计算盒两种基础硬件产品。EdgeBoard深度兼容百度大脑模型资源与工具平台(EasyDL/AI Studio),极大降低了开发验证、产品集成、科研教学、项目部署门槛,适用于安防监控、工业质检、医疗诊断、农作物生长监控、无人驾驶、无人零售等场景

数据格式的逻辑表示与物理表示

深度学习中经常会使用NCHW、NHWC和CHWN数据格式来表示数据,其中N、H、W、C定义如下:

N:一个batch内图片的数量,一次处理的图片数量

H:垂直高度方向的像素个数,图片的高

W:水平宽度方向的像素个数,图片的宽

C:通道数。例如灰度图像为1, 彩色RGB图像为3

下图表示N=2,C=16,H=5,W=4的数据排列,其中左图是逻辑表示,右图是物理表示。

 

深入浅出理解EdgeBoard中NHWC数据格式

以NCHW为例,其逻辑表示如左上图,n=0时,三个坐标分别标识了C、H、W的方向。第一个元素是000,第二个元素沿着w方向,即001,随后是002, 003;然后沿H方向,即004, 005, 006, 007...如此反复到019后;再沿C方向,020,021, 022 .....一直到319;再沿N方向,也就是n=1,然后重复W方向,H方向和C方向。

根据以上NCHW的划分,物理地址表示定义如下(如右上图):

[a:0] 表示W方向,在一行内从左到右

[a:1] 表示从H方向,一行一行的从上到下

[a:2] 表示在C方向,从一个通道到另外一个通道

[a:3] 表示从N方向,从n=0 到n=1

最终NCHW数据格式的物理分布(在内存中的一维表示)表示为000 001 002 003 004 ... 018 019 020 ... 318 319 320 ... ... 637 638 639。可以理解成把一个通道的所有像素一行一行地排列起来,然后排下一个通道,即n=0排列完后再排n=1。

同理NHWC表示是先沿C方向,再沿W方向,再沿H方向,最后沿N方向。所以在内存的存放顺序是,第一个元素是000,第二个沿C方向,即020,040, 060 ...一直到300,之后切换到W方向,001 021 041 061...301..到了303后再切换到H方向,即004, 024 ... 304,最后到了319,再切换到N方向,320,340 ...一直到639。

[b:0] 表示C方向,第一个像素从一个通道到另外一个通道

[b:1] 表示从W方向,最后一个通道第一个像素回到第一个通道的第二个像素

[b:2] 表示在H方向,最后一个通道第一行最后一个像素回到第一个通道的第二行的第一个像素

[b:3] 表示从N方向,从n=0 到n=1

NHWC其物理表示为000 020 ... 300 001 021 ... 283 303 004 ... 319 320 340 ... ... 339 359 ... 639。可以理解成把一个batch的一个像素的所有通道先排列起来,然后排下一个像素。n=0排列完成后,再排n=1。

同理CHWN其逻辑表示,先沿N方向,再沿W方向,再沿H方向,最后是沿C方向。

[c:0] 表示从N方向,从n=0的第一个像素到n=1的第一个像素

[c:1] 表示从N方向,从n=1的第一个像素回到n=0的第二个像素

[c:2] 表示在H方向,从n=1的第一行最后一个像素回到n=0的第二行第一个像素

[c:3] 表示从N方向,从n=1的第一个通道最后一个像素回到n=0的第二个通道第一个像素

CHWN其物理表示为 000 032 001 321 ... 003 323 004 324 ... ... 019 339 020 ...。可以理解成先把一个batch中N幅图像的第一个通道第一个像素排列起来,然后排第二个像素;再排第二个通道,第三个通道...

数据在内存中的偏移地址

深度学习中涉及大量的数据计算,计算需要从内存中取出数据,因此需要计算出数据的偏移地址以便进行取数。有了上面的逻辑表示和物理表示,可以推导出4维逻辑表示(n,c,h,w)映射到一维内存中偏移地址的公式。

定义位置(n,c,h,w)表示第n个batch的第c通道的第h行的第w列,那么该位置在不同数据格式下,在内存中的偏移地址计算公式如下: NCHW: offset_nchw(n, c, h, w) = n * CHW + c * HW + h * W + w NHWC: offset_nhwc(n, c, h, w) = n * HWC + h * WC + w * C + c CHWN: offset_chwn(n, c, h, w) = c * HWN + h * WN + w * N + n 其中N、C、H、W为常量,n、c、h、w为变量

在NCHW中,CHW=C*H*W,表示一个Batch,可以理解成一个BGR 3通道的图片,表达的是一个立方体。HW=H*W,表示一个平面,可以理解成是BGR 3通道图片的一个通道(灰度图就是一个通道图片)。W是一行,可以理解成一个通道上的一行。

 

深入浅出理解EdgeBoard中NHWC数据格式

以上图为例,如果想计算出绿色圈,即341的位置(n=1,c=1, h=0, w=1)。我们需要先跳过n=0的数据(CHW),图中箭头1指向的蓝色框区域;再跳过n=1的第一个通道(HW),图中箭头2指向蓝色框区域;这时进入到了n=1的第二个通道,跳过h=0行(0*W);最后跳过w个数到达偏移位置。

EdgeBoard为何使用NHWC

下面来分析EdgeBoard选择NHWC数据格式的原因。

 

2256672-958f31b01695b085.gif

上图表示卷积的计算过程。根据卷积的运算特点,相同位置窗口所有通道数与卷积的参数相乘后累加,可以有下面两种计算方式:

先通道后像素:先把一个像素点的所有通道数与卷积的参数相乘后累加,再进行下一个像素,直到卷积核窗口乘累加完成。比如第一次滑窗的计算公式 (w0,0,0)*(x0,0,0) + (w1,0,0)*(x1,0,0) + (w2,0,0)*(x2,0,0) + (w0,0,1)*(x0,0,1) + (w1,0,1)*(x1,0,1) + (w2,0,1)*(x2,0,1) + (w0,0,2)*(x0,0,2) + (w1,0,1)*(x1,0,2) + (w2,0,2)*(x2,0,2) + (w0,1,0)*(x0,1,0) + (w1,1,0)*(x1,1,0) + (w2,1,0)*(x2,1,0) + (w0,1,1)*(x0,1,1) + (w1,1,1)*(x1,1,1) + (w2,1,1)*(x2,1,1) + (w0,1,2)*(x0,1,2) + (w1,1,1)*(x1,1,2) + (w2,1,2)*(x2,1,2) + (w0,2,0)*(x0,2,0) + (w1,2,0)*(x1,2,0) + (w2,2,0)*(x2,2,0) + (w0,2,1)*(x0,2,1) + (w1,2,1)*(x1,2,1) + (w2,2,1)*(x2,2,1) + (w0,2,2)*(x0,2,2) + (w1,2,1)*(x1,2,2) + (w2,2,2)*(x2,2,2) = 0*-1 + 0*-1 + 0*0 + 0*1 + 0*-1 + 0*0 + 0*0 + 0*0 + 0*-1 + 0*0 + 0*0 + 0*0 + 0*1 + 1*0 + 2*1 + 1*0 + 0*0 +1*0 + 0*0 + 0*0 + 0*1 + 2*1 + 0*-1 + 1*-1 + 2*1 + 0*0 + 0*-1 + = 5

先像素后通道:先把一个通道滑动窗口与卷积参数相乘后累加,再进行下一个通道,直到所有通道乘累加完成。比如第一次滑窗计算公式

(w0,0,0)*(x0,0,0) + (w0,0,1)*(x0,0,1) + (w0,0,2)*(x0,0,2) + (w0,1,0)*(x0,1,0) + (w0,1,1)*(x0,1,1) + (w0,0,2)*(x0,1,2) + (w0,2,0)*(x0,2,0) + (w0,0,1)*(x0,2,1) + (w0,0,2)*(x0,2,2) + (w1,0,0)*(x1,0,0) + (w1,0,1)*(x1,0,1) + (w1,0,2)*(x1,0,2) + (w1,1,0)*(x1,1,0) + (w1,1,1)*(x1,1,1) + (w1,0,2)*(x1,1,2) + (w1,2,0)*(x1,2,0) + (w1,0,1)*(x1,2,1) + (w1,0,2)*(x1,2,2) + (w2,0,0)*(x2,0,0) + (w2,0,1)*(x2,0,1) + (w2,0,2)*(x2,0,2) + (w2,1,0)*(x2,1,0) + (w2,1,1)*(x2,1,1) + (w2,0,2)*(x2,1,2) + (w2,2,0)*(x2,2,0) + (w2,0,1)*(x2,2,1) + (w2,0,2)*(x2,2,2) = 0*-1 + 0*1 + 0*0 + 0*0 +0*1 + 1*0 + 0*0 + 2*1 + 2*1 + 0*-1 + 0*-1 + 0*0 + 0*0 + 1*0 + 0*0 + 0*0 + 0*-1 + 0*0 + 0*0 + 0*0 + 0*-1 + 0*0 + 2*1 + 1*0 + 0*1 + 1*-1 + 0*-1 = 5

可以看出两种方式计算的结果是一样。

而对于NHWC格式,即先通道后像素,是把一个像素的所有通道的数据放在一起。这样对应上图第一个像素的3个通道值,第二个像素的3个通道值,第三个像素的3个通道值,它们在内存中的地址都是连续的,也就是说一次就可以把kernel第一行需要计算的数取出,3x3的kernel需要3次取数。

而对于NCHW格式,即先像素后通道,是把一个通道的所有像素按顺序排列,这样对于一个3*3的卷积核,需要每取3个数就需要跳跃n个数后,再取3个数。一个通道需要取3次,3个通道需要取9次。

在实际网络中,通常通道数会远大于卷积kernel数(不会像上图只有3个通道,通常是几十、几百个通道)。这样对于NHWC格式来说说,取数的次数会比NCHW少很多。对EdgeBoard来说,为了增加其所支持网络的广泛性,减少对大输入尺寸和高存储量权重网络的限制,采用NHWC的格式可以实现分批次地把Feature Map和Weight数据读取到FPGA的片上缓存,例如对于3x3的Kernel,我们可以只读取三行(3WC)Feature Map的数据到FPGA内进行计算,即可得到一行输出数据,并传输到片外大容量缓存DDR,而不需依赖下一个3WC的Feature Map输入数据就可完成每一批次的输入输出数据传输。

再例如,我们也可将Weight数据根据FPGA片上缓存的不同大小分割成N份,一份一份发送到FPGA分别做卷积运算后,再传输回DDR做相应拼接,这等同于做一次大的卷积运算,好处在于可以根据不同容量的FPGA器件做不同匹配,大大提高了代码的硬件适配性。此外,由于C维度之间数据相关性较弱,采用NHWC格式更能发挥FPGA高并行度的计算特点,充分利用FPGA的算力。

下表为EdgeBoard使用NHWC数据格式的网络性能:

 

深入浅出理解EdgeBoard中NHWC数据格式

福利

据可靠消息:EdgeBoard正在打折中,历史最低价,直降1000元。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

近年来,随着现代医疗技术的进步,人类的平均寿命不断延长,导致人口老龄化危机加剧[1]。在这一背景下,中风发病率预计将呈上升趋势,为提高患者的运动能力,机器人在康复领域得到了广泛的应用,尤其是下肢外骨骼机器人[2]。这类机...

关键字: 脑机接口 SSVEP 深度学习

以下内容中,小编将对机器学习的相关内容进行着重介绍和阐述,希望本文能帮您增进对机器学习的了解,和小编一起来看看吧。

关键字: 机器学习 深度学习

今天,小编将在这篇文章中为大家带来机器学习的有关报道,通过阅读这篇文章,大家可以对机器学习具备清晰的认识,主要内容如下。

关键字: 机器学习 深度学习

随着科技的不断进步,人工智能(AI)已成为当今世界的热门话题。它以其强大的计算能力和深度学习能力,在多个领域展现出巨大的应用潜力。本文将对人工智能技术进行详细的探究,包括其定义、发展历程、主要技术、应用领域以及面临的挑战...

关键字: 人工智能 深度学习 计算机

语音识别这一技术也越来越受到关注。尤其,随着深度学习技术应用在语音识别技术中,使得语音识别的性能得到了显著提升,也使得语音识别技术的普及成为了现实。

关键字: 语音识别 深度学习 Audry系统

本文中,小编将对机器学习予以介绍,如果你想对它的详细情况有所认识,或者想要增进对它的了解程度,不妨请看以下内容哦。

关键字: 机器学习 深度学习

业内消息,苹果正在中国寻找本土生成式AI提供方,近日传与百度就在中国市场的苹果设备中使用百度的生成式人工智能技术进行了初步谈判,或将在中国市场的苹果设备提供本土AI大模型,因为中国法律要求大模型在被允许使用之前,必须得到...

关键字: 苹果 百度 AI

随着信息技术和算法研究的不断深入,人工智能(Artificial Intelligence, AI)已逐渐从理论构想走向现实应用,并在全球范围内引发了科技革命。当前阶段的人工智能正处于一个快速发展且日益成熟的时期,我们将...

关键字: 人工智能 深度学习

随着信息技术的飞速发展,人工智能(Artificial Intelligence, AI)作为一门综合了计算机科学、数学、统计学、认知科学和神经科学等多个学科知识的前沿技术领域,正以前所未有的速度改变着世界。本文将系统梳...

关键字: 人工智能 深度学习

据报道,百度创始人李彦宏不止一次对外说过百度的AI很牛。去年文心一言出来后,李彦宏声称文心一言和ChatGPT的差距可能在一到两个月左右,差距不大。对此,原搜狗创始人,现百川智能创始人王小川近日在接受采访时犀利吐槽:李彦...

关键字: 王小川 百度 李彦宏 百川智能
关闭
关闭