Hailo首席技术官Avi Baum深度对话

Hailo的首席技术官Avi Baum致力于引领公司的技术发展和产品创新。此前，他曾在德州仪器（Texas Instruments）担任无线连接业务的首席技术官，负责推动物联网（IoT）和工业物联网（IIoT）市场中互联微控制器（MCU）的战略规划。此外，他还在以色列国防军担任过高级架构师和管理职务。

作为一家源自以色列的人工智能芯片企业，Hailo始终专注于为自动驾驶汽车、智能摄像头及机器人等应用领域，研发具备高性能与低功耗特性的边缘人工智能处理器。同时，该公司还提供完备的软件套件，并依托全球合作伙伴生态系统提供有力支持。

您能否分享一下，最初是什么吸引您投身于边缘人工智能领域，以及您早期的工程经历如何影响了您对处理器设计的思考？

我的职业生涯使我得以深入涉足多个新兴市场领域。在任职于半导体行业领军企业德州仪器期间，我曾主导系统级设计与架构工作，负责产品定义部门工作，并随后出任该部门首席技术官一职。这段宝贵经历激励我持续探索那些有望引领未来发展趋势的前沿技术。

2017年，在创立Hailo之际，我们深刻认识到，尽管人工智能在云端领域已展现出蓬勃生机，但其同样具备成为边缘设备赋能关键技术的巨大潜力。基于此，我们明确了发展方向，并毅然踏上了这条探索之路。

随着生成式人工智能在边缘端的拓展，为何每秒万亿次操作（TOPS）不再是评估处理器性能的充分指标？

长期以来，TOPS一直是评估人工智能硬件性能的主要指标。然而，在边缘生成式人工智能时代，这一指标已显得力不从心。经典模型的核心在于将大量数据转化为有意义的洞察，因此处理输入数据所需的计算量随着待处理数据量的增加而增长。这类模型通常规模较小，相较于其处理的数据量而言，访问模型参数所带来的额外带宽成本相对较小。

然而，生成式模型的规模显著增大，参数数量可达数十亿。在这种情况下，内存带宽成为一个不可忽视的因素。因此，我们不应仅关注TOPS指标，而应着重评估处理器在真实环境下如何平衡计算与内存资源。关键不在于追求最高的计算量，而在于根据处理器所需处理的工作负载来优化架构。

为何在边缘人工智能工作负载中，内存带宽如今成为比算力更为关键的瓶颈，特别是对于大型语言模型（LLMs）和视觉语言模型（VLMs）而言？

对于边缘人工智能工作负载，尤其是涉及大型语言模型或视觉语言模型的任务，内存带宽正迅速成为主要的性能瓶颈。这些模型的参数规模通常在5亿至80亿之间，超出了片上内存的容量，需要依赖片外内存（如动态随机存取存储器DRAM）进行访问。这大大增加了对内存带宽的需求。例如，一个拥有10亿参数的模型在标准LPDDR4X接口下，在最佳条件下每秒可生成多达约40个token。然而，若要维持这一速率，一个拥有40亿参数的模型所需的带宽将是前者的四倍多。若带宽不足，性能将受到影响，原因并非算力有限，而是处理器无法快速输入数据。这种计算与内存之间的不平衡是边缘部署生成式人工智能面临的最紧迫挑战之一。在逐层计算的架构中，这一问题尤为突出，因为中间结果也会增加内存流量，进一步加剧带宽压力。

在为真实的边缘应用设计产品时，产品团队应如何重新思考其基准测试策略？

产品团队应摒弃仅依赖TOPS等单一性能指标的做法，转而采用能够反映边缘部署实际情况的基准测试策略。这首先需要深入理解具体的应用场景、处理器所需处理的实际工作负载，并确定“工作点”，即功率、成本和延迟约束的交集。在此基础上，评估计算与内存在这些条件下的相互作用。一个拥有高TOPS值的处理器若内存带宽有限，其性能将大打折扣；同样，若算力不足，增加内存也无济于事。

团队应评估处理器在感知、增强和生成式工作负载等不同任务中的持续性能表现，因为这些任务对处理器的要求各不相同。目标并非优化峰值性能指标，而是确保处理器在真实环境中的各种预期应用场景下都能保持均衡的性能表现。

这是一种从“单一”指标向更复杂方法的自然转变，反映了平台的使用方式和评估标准，类似于其他主流架构（如SPEC、Coremark、3DMark等）所经历的转变。

功率和成本约束如何影响Hailo处理器背后的架构决策，特别是对于面向消费者的边缘设备而言？

在设计面向边缘设备的人工智能处理器时，功率和成本是两个最为关键的约束条件，尤其是在面向消费者的产品中。在物联网传感器或智能家居助手等紧凑型设备中，功率预算极为有限，且通常没有主动冷却系统，因此能效成为至关重要的考量因素。每增加一份计算或内存资源，都会带来额外的功耗和热量，直接影响设备的可用性和电池寿命。

成本同样具有重要影响。消费者设备必须保持在具有竞争力的价格水平，这意味着处理器在达到经济不可行性之前，只能包含有限的TOPS和内存容量。这些约束迫使我们在架构设计上做出艰难的权衡。我们优先考虑那些能够在严格的功率和成本限制下，满足实际应用需求的计算与内存平衡设计，确保边缘人工智能在广泛的消费者产品中具有可行性、高效性和可扩展性。

能否详细介绍一下您如何为应用定义“工作点”，以及为何这在边缘人工智能部署中如此重要？

定义“工作点”是设计系统时最为关键的步骤之一。它指的是功率、成本和延迟约束的交集，这些约束共同决定了在特定部署场景下实际可达到的性能水平。与云端不同，在云端可以通过增加计算或内存资源来解决问题，而边缘设备则必须在固定的限制条件下运行。这意味着我们必须根据应用的实际需求做出明智的权衡。例如，物联网传感器可能更注重能效而非原始性能，而自动驾驶系统则可能要求超低延迟，无论功耗如何。一旦确定了工作点，我们就可以评估处理器是否具备满足这一需求的计算与内存平衡。关键不在于在各个方向上最大化性能指标，而在于确保处理器在实际应用条件下能够保持持续、可靠的性能表现。

一般来说，工作点是关键性能指标达到最优的点。若未能做到这一点，可能导致平台在最典型的使用场景下运行不佳。举个简单的例子，有人可能设计出一个在极高分辨率输入下效率极高的人工智能分析系统，但如果该系统被部署在永远无法达到这一分辨率的系统中，那么这种优化就毫无意义。

在现代设备中，视频、音频和语言常常融合在一起，您如何针对多模态模型进行优化？

多模态模型需要精心平衡计算与内存资源。每种模态对系统的压力各不相同：视频处理因高分辨率和帧率而计算密集，而语言和音频处理则更为紧凑，但对内存带宽的要求更高。在诸如视觉语言处理等应用中，这种差异尤为明显：视频处理推动计算需求，而语言模型则可能迅速遭遇内存瓶颈。

我们通过分析这些工作负载在整个处理流程中的相互作用来进行优化，确保处理器架构能够同时支持它们，避免一种模态影响另一种模态的性能表现。

边缘模型规模的扩大如何加剧了延迟和功耗问题，系统级架构在解决这些问题中扮演了什么角色？

随着边缘模型规模的扩大，延迟和功耗问题变得更加难以管理。更大的模型更依赖片外内存，这增加了能耗和延迟，尤其是在内存带宽成为瓶颈的情况下。例如，将模型规模从10亿参数扩大到40亿参数，若要保持相同性能，所需的带宽将超过四倍。然而，在实际应用中，由于带宽和系统级约束，性能并不会线性增长。

关键不在于拥有高TOPS值或大容量内存，而在于这些组件如何相互作用。平衡的设计确保计算、内存和带宽能够高效协同工作，防止某一资源限制整个系统的性能。

考虑到人工智能模型、工作负载和部署要求的快速发展，Hailo如何进行未来证明设计？

在边缘人工智能领域进行未来证明设计，意味着要打造能够处理各种不断演变的工作负载的处理器。我们专注于构建平衡的架构，这些架构并非仅针对单一任务进行优化，而是能够支持从感知功能（如目标检测）到生成式模型（如视觉语言模型）的各种应用。每种类型的工作负载对计算和内存的需求各不相同，因此我们在设计时注重灵活性，避免在不同工作负载之间切换时出现瓶颈。我们还考虑了各种应用在功率、成本和延迟方面的实际限制。通过优先考虑工作负载的多样性和资源的平衡，我们旨在支持下一代边缘人工智能在消费者和工业领域的部署。

然而，一种设计无法满足所有需求，我们的产品组合针对特定的可寻址应用进行了优化，并努力在功率、外形尺寸等可用预算范围内找到最佳“工作点”。

开发者生态系统在最大化处理器价值方面发挥了什么作用，您如何确保团队能够充分利用Hailo的能力？

作为一款可编程设备，为开发者提供易于使用的工具以充分发挥处理器的潜力、缩短部署路径并实现新的应用场景至关重要。通过围绕我们的处理器构建完善的支持环境，我们帮助团队在各种应用场景中实现人工智能应用。

对于正在为下一代产品选择首款人工智能加速器的工程师或首席技术官，您有什么建议？

我认为当前的创新环境存在着巨大的创新潜力，能够将我们的想象转化为实际产品。在快速变化的环境中，选择一款能够实现从概念到部署快速循环的加速器至关重要。