设计一个树莓派手语翻译
扫描二维码
随时随地手机看文章
使用自定义ML模型的实时手语字母检测器,直接在带有树莓派的索尼IMX500 AI相机上处理。
在曼彻斯特大学的“黑客机器人”社团活动中,我们着手建造一些有意义的东西——一些能够真正帮助人们的东西。有超过100名学生参与,只有24小时完成我们的项目,我们希望我们的项目不仅因为它的技术,而且因为它的目的而脱颖而出。
我们的想法吗?一个可以识别手语字母的系统,只需要一个树莓派和索尼IMX500人工智能摄像头。没有外部服务器。没有云处理。只是纯粹的边缘AI。
我们最初尝试使用MediaPipe库进行手部追踪。虽然它为我们提供了一个良好的起点,但对于我们心目中的特定任务来说,它不够准确或灵活。所以,我们转向了——这才是真正的学习开始的时候。
我们使用TensorFlow构建了一个自定义的机器学习模型。为了训练它,首先,我们用已经存在的数据集进行实验。在意识到这些不能真正满足我们的目的后,我们收集了自己的数据集,捕捉了我们的手形成不同手语字母的图像。这是一个重复的过程——拍照、贴标签、训练、调整——但它使我们能够控制数据的质量和特异性。
技术管道需要几个关键步骤:
•设计和训练自定义分类器
•应用量化使模型轻量化
•编译和包装正确,直接在IMX500相机上运行
这个项目最棒的部分,以及这个集成了人工智能的相机,是相机本身完成了繁重的工作。该模型在索尼IMX500上本地运行,不需要单独的GPU或云处理——一切都在设备上实时发生。
如果我们要进一步推进这个项目,我们会考虑实现手分割来提高预测的准确性。这将有助于模型更好地将手从背景中分离出来,减少噪音,提高在不同条件下的检测能力。
本文编译自hackster.io