当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 深度学习、AI人工智能等技术正在成为各大处理器的热点,虽然目前的主流是通过专用的NPU单元来加速AI指令,但在CPU中集成相应的指令集也会带来很大的改变,Intel在Cascade Lake及1

深度学习AI人工智能等技术正在成为各大处理器的热点,虽然目前的主流是通过专用的NPU单元来加速AI指令,但在CPU中集成相应的指令集也会带来很大的改变,Intel在Cascade Lake及10nm Ice Lake处理器中就加入了BFlota16指令集(简称BF16),AI性能达到了前代的2.5倍以上。

BF16是为深度学习而优化的新数字格式,它保证了计算能力和计算量的节省,而预测精度的降低幅度最小。

BF16,有时也被称为BFloat16或Brain Float16,是一种针对人工智能/深度学习应用程序进行优化的新数字格式。它在谷歌Brain上获得了广泛的应用,包括谷歌、英特尔Arm和许多其他公司的人工智能加速器。

BF16背后的想法是通过降低数字的精度来减少计算能力和将张量相乘所需的能源消耗。张量是一个三维的数字矩阵;张量的乘法是计算人工智能所需的关键数学运算。

现在大多数人工智能训练都使用FP32, 32位浮点数。虽然这意味着计算非常准确,但它需要强大的硬件和大量的电力。推理通常使用INT8, 8位整数(整数)。虽然使用诸如INT8这样的较低精度的数字系统可以在相同的硬件上提供更高的吞吐量,从而节省电力,但是计算(预测)的结果却不那么准确。

BF16的目的是优化精度和预测精度之间的权衡,以增加吞吐量。

解剖FP

计算中的二进制数表示为:

底数是2,尾数是x的基指数,

在FP32中,每个数字都表示为:

1位表示符号(+或-),后跟8位的指数,在后面是23位的尾数(总共32位)。

对于BF16,谷歌Brain提出通过将FP32的尾数截断为7位来降低精度。

因此,BF16数字表示为:

1个符号位+ 8个指数位+7个尾数位(总共16位)。

这些16位数字提供了谷歌所追求的高吞吐量需求,同时保留了FP32的近似动态范围(该系统可以表示的数字的整个范围),因为指数是相同的大小。

使用BF16算法的预测精度与FP32相似,但不如FP32精确(谷歌曾说过,这是因为神经网络对指数的大小比尾数敏感得多)。对于大多数应用程序,这种折衷还是被认为可以接受。

为什么不用FP16?

现有的FP16格式(在移动图形应用程序中很流行)也是16位浮点数格式。为什么不用它呢?

FP16包括:

1个符号位,5个指数位,10个尾数位(共16位)。

使用这种格式,指数比FP32小,因此动态范围大大缩小。此外,将FP32数字转换成FP16比转换成BF16要困难得多——这比直接截断尾数要多得多,而尾数截断是一个相对简单的操作。

另一个重点是计算所需的硅物理面积。由于硬件乘法器的物理大小随尾数宽度的平方而增加,因此从FP32切换到BF16可以显著节省硅面积(这足以说服谷歌在其张量处理单元(TPU)芯片中使用BF16)。BF16乘法器比FP32乘法器小8倍,但仍然是FP16的一半。

DL还有哪些格式?

BF16并不是为深度学习提出的唯一新数字格式。在2017年Nervana提出了一个名为Flexpoint的格式。这个想法是通过结合点和浮点数系统的优点来减少计算和内存需求。

定点数使用固定的位来表示整数(整数)和分数(小数点后的部分)—与上面描述的浮点格式相比,用定点数计算通常更简单、更快。但是,对于给定位数,定点数的动态范围要比浮点数小得多。

Flexpoint数字共享相同的指数,使张量更容易相乘

Flexpoint张量中的(浮点数)数使用相同的指数(不仅仅是相同的指数大小,而是完全相同的指数值)。这个指数是由张量中的所有数字共享的,所以指数的传递可以在整个张量中平摊。

张量相乘可以作为一个定点运算,因为每个计算的指数是相同的——这比浮点数所需的数学运算要简单。这些计算代表了深度学习数学的绝大部分,因此节省了相当大的费用。然而,由于所有数字都有相同的指数,所以导致管理指数很复杂,动态范围(可以表示的数字范围)很低。

可惜的是,Flexpoint从未成功,甚至Nervana自己的芯片在消亡前也使用了BF16。

延伸阅读——ARM下代处理器架构将支持BFloat16指令集 AI性能突飞猛进

ARM宣布将在下一版ARMv8架构中加入新的Non及SVE指令,以便支持BFloat16运算。

BF16运算还不是IEEE的标准,但与标准的FP32浮点、FP16半精度相比,BF16运算优点多多,它可以轻松取代FP32,而且还能保持正确的NN神经网络操作,这点是FP16做不到的,而且它占用的内存及带宽只有FP32一半,所以性能更高,而且不需要复杂的架构改变。

总之,支持BF16运算优点多多,根据ARM做的模拟,不同类型的运算中BF16带来的性能提升不等,少的有1.6倍性能,多的可达4倍性能,所以在AI方面性能变化是非常大的,是前代的数倍之多。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

业界应如何看待边缘人工智能?ST授权合作伙伴 MathWorks 公司的合作伙伴团队与ST 共同讨论了对边缘机器学习的看法,并与 STM32 社区分享了他们的设计经验。

关键字: AI 机器学习 处理器

业内消息,在昨天的中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。Vidu是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标Sora...

关键字: Sora 清华 AI Vidu

OPPO今日推出 Find X7全新配色 ——「白日梦想家」,为消费者带来更多选择。新配色采用独特釉层处理工艺,焕发如白瓷般柔润细腻的光泽,带来初夏般的清爽。Find X7「白日梦想家」以敢想敢做,坚韧信念、无限潜能的信...

关键字: Find X7 大模型 AI

双方的合作促成了尖端人工智能视觉解决方案,提高了效率、连通性和成本效益

关键字: 人工智能 智能家居 机器学习

4月26日,MediaTek宣布推出天玑汽车平台新品,以先进的生成式AI技术赋能智能​汽车的体验革新。

关键字: AI 汽车电子

2024年4月26日,中国深圳——2024年是OPPO品牌成立20周年。在2024年世界知识产权日,OPPO正式发布首份《OPPO创新与知识产权白皮书》,系统性地展现了OPPO 20载技术创新和知识产权保护成果。

关键字: OPPO 知识产权 AI

轻量级AI定制模型助力低成本快速部署 北京2024年4月18日 /美通社/ -- 数据和人工智能(AI)领域的领先者SAS—今日在SAS Innovate大会上首次展示了一款变革性的、旨在帮助企业直面业务挑战的解决方案...

关键字: SAS AI模型 人工智能 INNOVATE

「人工智能浪潮下的中国制造」论坛顺利召开 上海2024年4月17日 /美通社/ -- 4月12日,由百年名校法国里昂商学院主办,斯巴诺萨设计承办,福州东湖数字小镇,福建亚太合会数字经济专委会协办的"中法建交6...

关键字: 微软 雷诺 AI 中国制造业

根据调研机构Gartner的预测,由于竞相投资AI以及IT设备更换周期的到来,全球2024年的IT支出将增长8%。

关键字: GenAI IT AI

据报道,日本电信巨头软银集团将在未来两年投资1500亿日元(9.6亿美元)升级其计算设施,该计划包括大量采购英伟达GPU。

关键字: 软银 英伟达 GPU AI
关闭
关闭