开发一款边缘人工智能型的人类交流助手,以实现语音障碍和听力障碍人士之间的实时双向交流
扫描二维码
随时随地手机看文章
引言:为何此事至关重要
那是 2026 年——无论我们看向何处,人工智能都是热门词汇。如今的每一款产品中都带有“人工智能”这一字样。每家公司都在开发人工智能解决方案。
但尽管这种增长速度很快,仍有两个关键问题被忽视了:
1. 可访问性
大多数的人工智能解决方案都是为大多数人设计的。但我们的社会中有一大部分人群,尤其是残疾人士,却常常被排除在外。
根据印度 2011 年的人口普查数据,有超过 500 万人患有听力和言语障碍。
对他们而言,像交流这样最基本的事情也成了他们每天都要面对的难题。
而且交流并非一种奢侈,而是人类的一项基本权利。
现在想象一下,自己无法自由地表达自己的想法。这就是数百万人的现实状况。
2. 资源利用效率
现代的人工智能系统能耗极高。它们依赖于图形处理器、云基础设施以及大量的计算资源。
但真正的问题是:
•人工智能能否在资源受限的硬件上运行?
•人工智能能否被优化得足以适用于边缘设备?
•人工智能真的能够普及到每一个角落吗?
我们的解决方案
为应对这两个挑战,我们提出:
Sanchar Mitra
一款由人工智能驱动的仿人式交流助手,能够实现有语言障碍和听力障碍的人士与其他人之间的实时双向交流。
基于以下愿景而建造:
•“全民人工智能”
•“用于社会公益的人工智能”
•包容性边缘人工智能系统
系统运行模式
Sanchar Mitra公司采用三种运营模式:
1. 通信模式
将手语手势转换为语音
2. 逆向沟通模式
将口语转换为文字
3. 人工智能交互模式
利用本地语言模型实现情境化的对话
其工作原理(系统流程)
手势识别(设备内进行)
•STM32N6570-DK 通过摄像头捕捉手势动作
•在设备上运行神经网络
•提取 21 个手部关键点坐标
数据传输
通过全双工 UART 协议传输的地标信息(约每秒 1 帧)
ML 分类(主机)
基于超过 10,000 个美国手语样本训练而成的随机森林分类器
用途:
•置信度阈值(大于 80%)
•两帧确认(降噪)
•用途:置信度阈值(大于 80%);两帧确认(降噪)
输出
识别标志为:
显示在液晶显示屏上
转换为语音(离线文本转语音)
识别标志为:显示在液晶显示屏上 转换为语音(离线文本转语音)
逆向沟通
通过麦克风录制的语音
通过基于语音转文本技术(Whisper)进行处理
转换为文字
“AI 模式”
使用以下方式处理的句子:
Llama 3.2 通过 Ollama 进行传输
使用以下方式处理的句子:通过 Ollama 运行的 Llama 3.2 版本
完全离线的对话式人工智能
嵌入式人工智能核心
桑查尔·米塔拉的核心在于:
基于 STM32N6 架构且集成神经处理单元(NPU)的 STM32N6570-DK 系列产品
主要亮点:
•使用 STM32 模型库进行实时手部追踪
•整个推理过程所需内存约为 4.2MB
在资源有限的嵌入式硬件上运行效率高
•展示了真正的边缘人工智能部署方式
发展生态系统 -
完全基于 STM 生态系统构建:
•STM32CubeIDE
•STM32CubeProgrammer
•STM32 模型库
•X-CUBE-AI
主要特点 -
•实时手语识别
•双向通信
•完全基于边缘的处理
•离线语音识别
•低延时
•隐私优先架构
•嵌入式人工智能部署
•便携且可扩展的系统
竞争优势 -
•100% 基于边缘的架构
•无云依赖性
•不进行外部数据传输
•完整的数据隐私保护
•微控制器上的高效人工智能
基于 STM32N6 并集成了神经网络处理器运行
~4.2 兆字节的内存占用量
最低功耗(系统功耗约 10 瓦)
“用于社会公益的人工智能”
专为方便使用而设计
专注于包容性
专为实际应用而设计
应用程序
•学校和特殊教育中心
•医院和医疗设施
•政府服务自助终端机
•企业办公场所
•智能城市交通系统
未来前景
•将 STT 和 TTS 全部迁移到设备端运行
•使用边缘人工智能工具(例如 Edge Impulse)优化模型
•使系统完全独立运行(无需依赖主机)
•提高手势的词汇量和准确性
•缩小成便携式可穿戴设备的形式
在 STM32N6 平台及其集成的神经处理单元(NPU)的配合下开展工作,是一次令人惊叹的经历,它充分展示了嵌入式人工智能系统的强大功能和高效性能。
本文编译自hackster.io





