终端AI芯片获胜的关键，是软件？

时间：2018-11-13 10:42:01

关键字： ai处理器 dsp芯片终端ai芯片

手机看文章

扫描二维码
随时随地手机看文章

[导读]AI的发展正在从云端走向终端，未来无论是智能手机、汽车、无人机、机器人都将增加更多的AI功能。市场的需求吸引了越来越多AI芯片公司的加入，在终端AI芯片公司不断推出更高算力芯片的时候，可以发现他们的硬

AI的发展正在从云端走向终端，未来无论是智能手机、汽车、无人机、机器人都将增加更多的AI功能。市场的需求吸引了越来越多AI芯片公司的加入，在终端AI芯片公司不断推出更高算力芯片的时候，可以发现他们的硬件各有长处但很相似，这是否意味着软件才是终端AI芯片获胜的关键？

终端AI芯片的硬件比拼

根据J.P. Morgan的预测，2018年到2022年，全球半导体市场的复合年均增长率（CAGR）将为5-6%，而同期AI半导体市场的复合年均增长率将高达59%。这其中的增长应该很大一部分源于终端设备，包括手机、自动驾驶汽车、无人机、机器人等智能设备对低延迟、低功耗、低成本、高可靠性、高安全性人工智能的需求。因此，来自视觉、语音等应用促使等越来越多的公司开始设计通用的AI芯片，并进一步促使半导体IP提供商推出AI处理器IP。

以CEVA今年推出的用于前端设备深度学习的AI处理器IP NeuPro为例，该处理器由NeuPro引擎和NeuPro VPU组成。NeuPro引擎包括神经网络层的硬件实现，其中包括卷积、全连通、池化和激活。NeuPro VPU是可编程矢量DSP，用于处理CDNN软件，同时为AI负载的新进展提供基于软件的支持。

据悉，NeuPro支持8位和16位神经网络，MAC单元在运行时的利用率达90%以上，整体处理器的设计大幅降低了DDR带宽，功耗得以改善。另外，NeuPro还可以与CEVA-XM4或CEVA-XM6视觉平台相结合，使图像处理、计算机视觉和神经网络的处理能有灵活的选择。

当然，为了满足不用设备对AI性能的需求，NeuPro系列处理器可以提供2TOPS到12.5TOPS的性能，具体分为四款AI处理器，包含512个MAC单元的NP500面向物联网、可穿戴设备和相机；包含1024个MAC单元的NP1000面向中档智能手机、ADAS、工业应用和AR / VR头戴设备；包含2048个MAC单元的NP2000瞄准高端智能手机、监控、机器人和无人机；包含4096个MAC单元的NP4000用于企业监控和自动驾驶的高性能边缘处理。

了解到，NeuPro包含了CNN、RNN、DNN、XNN等，多网络和模型的支持，处理性能提高的同时，不可避免会增大处理器的面积，功耗也会相应的增加。为了降低功耗，CEVA营销副总裁Moshe Sheier表示：“数据的加载和存储在AI处理器中能量的消耗会占比较大的比重，因此NeuPro会把对神经网络的结构进行合并、压缩和处理，同时将32位浮点量化到16位、8位甚至更低的位数，减少数据的加载和存储。另外，NeuPro Engine和VPU单元之间的数据交换也可以通过直连通道，不需要通过SoC总线做交换，大大减少中间数据的加载。”

为了保持硬件的灵活性，Moshe Sheier告诉：“视觉应用在不断的发展，但无论是新出现的层还是模型，都可以放到我们的Vision DSP（VPU）上处理，既能保持DSP很强的功耗和性能优势，也能让NeuPro不断适应新的变化，这也是我们AI方案的特点。”

Moshe Sheier同时表示，AI还处于一个早期的阶段，现在的情况是各家的AI处理器IP在SoC中所占的面积都不小，而人工智能还在不断演进中，未来算法和设计的改进会持续带来AI技术的更新。在AI处理器的设计上，虽然每家的产品会各有特色，但又很相似，因为大家都在堆MAC单元，用更多的MAC单元实现更高的硬件指标，但在同样的工艺下，面积和功耗都很接近。这时我们还需要思考，MAC单元的成本、利用率以及最终的功耗和面积。因此，如何延长产品的周期更好地适应OEM厂商不断变化的需求非常关键，这时软件的作用尤为明显，能够通过软硬结合不断适应技术变化和提高效率的AI方案对产品落地非常重要。。

软件才是AI处理器成功的关键？

据介绍，与NeuPro系列处理器配合的是CDNN神经网络软件框架，它的主要作用是把用户使用不同框架训练好的神经网络进行量化、压缩等处理，然后自动地部署到底层的硬件。Moshe Sheier强调，CDNN所能实现的自动化是基于CEVA对应用和协议的深入了解和分析，加上长期的积累判断哪些工作适合什么样的硬件，另外，CEVA不同的硬件平台软件使用的都是同一套框架。

可以看到，CEVA也在不断完善CDNN，最近发布的最新CDNN版本具有开放式神经网络交换(ONNX，由Facebook、微软和AWS创建的开放格式，用于实现AI社群内的互操作性和可移植性，可让开发人员针对项目使用合适的工具组合)支持。CEVA副总裁兼视觉业务部门总经理Ilan Yona 表示：“CEVA为实现开放、可互操作的AI生态系统，人工智能应用程序开发人员能够充分利用生态系统中各种不同深度学习框架，考虑其功能和易用性，为所需特定应用选择最合适的深度学习框架。通过为CDNN编译器技术添加ONNX支持，我们为CEVA-XM和NeuPro的客户及生态系统合作伙伴提供了更广泛的功能，用于培训和丰富其神经网络应用。”

Moshe Sheier表示：“如果看语音处理，无论是唤醒还是关键字识别都已经从传统的算法全面转变到神经网络处理，这种算法的更新和软件的更新反过来会对硬件提出更高更新的要求，也就是说算法和平台会不断的更新。因此在AI处理器演进过程当中，我们应该适当的多用软件平台，不能完全依赖于固定的硬件，从而延长产品生命周期。”

小结

终端产品的AI需求促使不少公司进入AI领域，而AI芯片公司的需求又推动半导体IP公司推出AI处理器IP。可以看到，在算法和模型还不够稳定的时候，提供通用IP和平台的公司并没有着急推出产品，而是等待算法和模型稳定之后选择合适的时机和领域进入市场。

异构架构是AI芯片更好的选择，终端AI芯片相似的的地方在于增加MAC单元提升性能，同时为降低功耗也为减少数据的加载和存储使用了专门的技术。更为关键的是，为保持对未来算法和模型的适应性，除了集成具有可编程性能的硬件，软件更高的可配置性成为AI处理器中保持竞争力，延长产品周期非常关键的部分。