非常非常边缘的人工智能

[导读]当 TinyML 小组最近召开成立大会时，成员必须解决一些基本问题，首先是：什么是 TinyML？ TinyML 是一个工程师社区，专注于如何在超低功耗系统中最好地实施机器学习 (ML)。他们的第一次每月会议致力于定义问题。机器学习是否可以用于微控制器等低功耗设备？是否需要专业的超低功耗机器学习处理器？

当 TinyML 小组最近召开成立大会时，成员必须解决一些基本问题，首先是：什么是 TinyML？

TinyML 是一个工程师社区，专注于如何在超低功耗系统中最好地实施机器学习 (ML)。他们的第一次每月会议致力于定义问题。机器学习是否可以用于微控制器等低功耗设备？是否需要专业的超低功耗机器学习处理器？

Qualcomm AI Research 的 Evgeni Gousev 将 TinyML 定义为消耗 1mW 或以下的机器学习 (ML) 方法。Gousev 表示，1mW 是智能手机中永远在线应用的“神奇数字”。

“有很多关于云 ML 的讨论，而智能手机级别的 ML 变得越来越复杂，”他说。“但如果你查看数据，90% 的数据都在现实世界中。您如何连接所有这些相机、IMU 和其他传感器并在该级别进行 ML？”

“微型机器学习将变得庞大，迫切需要推动微型机器学习的整个生态系统，包括应用程序、软件、工具、算法、硬件、ASIC、设备、晶圆厂和其他一切，”Gousev 说.

TensorFlow 精简版

谷歌工程师 Daniel Situnayake 介绍了 TensorFlow Lite 的概述，这是谷歌 TensorFlow 框架的一个版本，专为包括微控制器在内的边缘设备而设计。

“TensorFlow Lite 一直以手机为目标，但我们很高兴能在更小的设备上运行它，”他说。

在 TensorFlow 中构建模型后，工程师可以通过 Tensor Flow Lite 转换器运行它，该转换器“使其更小并执行量化之类的操作，这使您可以将模型的大小和精度降低到合适的规模在你的目标设备上，”他说。

Situnayake 描述了一种可用于提高电源效率的技术，该技术涉及将模型链接在一起。

“想象一个分类器的级联模型，其中你有一个非常低功率的模型，几乎不使用任何功率来检测是否有声音发生，然后另一个模型需要更多的能量来运行，它可以确定它是否是人类语音，”他解释道。“然后，只有在满足这些条件时才会唤醒一个更深层次的网络，它会使用更多的电力和资源。通过将这些链接在一起，您只需在需要时唤醒[能源密集型]，因此您可以大大节省能源效率。”

Nat Jefferies 是 Google 的“微控制器 TensorFlow Lite”团队的工程师，他描述了现代消费电子产品对能源消耗的严格要求的趋势，尽管它具有复杂的功能和复杂的传感器系统。这些小工具可能使用需要持续数月或数年的电池运行，或者使用能量收集。

“我们认为最好的解决方案是 Tiny ML——在微控制器上进行深度学习，”他说。“这使我们能够进行 CPU 周期和传感器读取，这 [不消耗太多功率]，而不是将所有信息发送到芯片外...... TinyML 可用于将传感器数据压缩成几个字节，你然后可以发送……只需一小部分功率，”他说。

Jefferies 说，最近在谷歌挑战中，参赛者开发了 250kbyte 的模型来进行人员检测，收到了许多令人印象深刻的提交，并“验证了我们所做的事情是有意义的”。

“目前，我们能够将 TensorFlow 模型缩小到可以将它们安装在微控制器上的程度，这就是为什么现在是进入这一领域的绝佳时机，”他说。“我们很高兴能够启动这个过程。”

谷歌在微控制器上的 TensorFlow Lite 路线图包括开源谷歌的一些演示、与芯片供应商合作优化内核、优化 TensorFlow Lite 的内存使用以在相同的设备上运行更复杂的模型，以及支持更多的开发平台（SparkFun Edge 是唯一的到目前为止支持的板，但 Arduino 和 Mbed 板支持即将推出）。

专业设备
为机器学习提供专业低功耗应用处理器案例的是 GreenWaves Technologies 业务开发副总裁 Martin Croome。Croome 同意业界关于如何进行超低功耗机器学习的讨论迟到了。

“我们迫切需要更多地关注这一领域，无论是从算法的角度还是从我们的[硬件]世界，”他说。

GreenWaves 开发了一款 RISC-V 应用处理器 GAP8，该处理器专注于边缘设备的推理，功耗为毫瓦，并提供超低待机电流。该公司的目标是电池供电的设备以及使用能量收集的设备。

多种技术用于降低功耗。这包括并行化，但不是为了加快速度；使用 8 个内核来允许较慢的时钟速度，这允许内核电压下降，从而节省能源（实际上，时钟频率是动态调整的，取决于工作负载）。

该芯片面向卷积神经网络 (CNN)，硬件加速器在单个时钟周期内对 16 位数据执行 5×5 卷积（不包括回写）。显式内存管理依赖于广泛用于图像处理的 CNN 的性质；图像传感器是固定大小的，推理需要相同数量的权重，结果总是相同的大小。因此，一个工具可以在编译时为所有数据移动生成代码。

Croome 承认，足够专业化以有效处理 ML 工作负载，同时保持足够的灵活性以响应技术进步是一个棘手的平衡。

“人工智能的范围正在以令人难以置信的速度向前发展。今天关于如何做事的好主意可能不是明天的好主意，”克鲁姆说。“如果我们过于专业化，我们将非常擅长加速每个人去年所做的事情，这对公司不利。因此，我们试图平衡灵活性、可编程性和加速之间的差异。”

克鲁姆说，GreenWaves 的芯片已经打样一年，将于本月开始生产，并将在第三季度末向客户批量发货。

TinyML 聚会于每个月的最后一个星期四在湾区举行，向来自工业界和学术界的与会者开放。