当前位置:首页 > 智能硬件 > 机器人
[导读] 无论是在拥挤的人行道上行走,还是在社区足球联赛中射门进球,人类都会下意识地利用感知—动作循环(perception-acTIon loop)做几乎所有的事情。感知—动作循环可以使我们在一个连续的

无论是在拥挤的人行道上行走,还是在社区足球联赛中射门进球,人类都会下意识地利用感知—动作循环(perception-acTIon loop)做几乎所有的事情。感知—动作循环可以使我们在一个连续的实时循环中使用感官输入做出正确的动作,其也是 “自治系统” 的核心。

但当前一代的机器人等 “自治系统” 在直接根据视觉数据做出正确决策方面仍远远不及人类,其依然受到难以收集大量真实世界数据的限制。此外,虽然我们能轻易生成大量模拟数据,但这类数据在现实生活的各种场景中,通常不能催生安全的行为。

如何让机器人具有如人类一般的 “自治” 能力?一项来自微软研究人员的研究,让我们看到了巨大的可能性。

研究人员向我们描述了这样一种机器学习系统:它可以帮助机器人直接从相机图像中推理出正确的动作。以无人机为例,无人机可以通过模拟学习完成特定路线的导航。

通过模拟训练,机器人可以学会独立观察现实世界中的环境和条件(包括看不见的情况),然后作出正确决策,这使得机器人非常适合用于搜索和救援任务。研究人员认为,在不久的将来,这种机器学习系统可以帮助机器人更快地识别出需要帮助的人。

受人类大脑的启发,该系统将视觉信息直接映射到正确的控制动作上,也就是说,将视频帧的高维序列转换为代表真实世界状态的低维形态。根据研究人员的说法,这种方法使模型更容易解释和调试。

图 | 系统框架通过模拟学习使用多个数据模态的低维状态表征

研究人员在微软官网上的一篇博客文章中写道:“我们希望可以借助这个系统使得当前技术更加接近人类应对环境提示、适应困难条件和自主操作的能力。我们有兴趣去探索要建立一个达到人类水平的自主系统需要做些什么。”

无人机实验

在机器学习系统框架内,研究人员将感知组件(即理解所看到的东西)与控制策略(根据看到的东西决定做什么)分开。“通过将 ‘感知—行动循环’ 分为两个模块,并将多种数据模式纳入感知训练阶段,我们可以避免网络过度拟合传入数据的非相关特征。比如,尽管用于模拟和物理实验中的门的大小相同,但它们的宽度、颜色,甚至内在的相机参数却不一样。” 一位研究人员说。

该团队将机器学习框架应用在一个带有前置摄像头的小型四轴飞行器上,在只使用来自相机的图像的情况下,试图通过为无人机传授一种 AI 策略,从而使其完成特定路线的导航。

研究人员使用一个名为 AirSim 的高保真模拟器在模拟环境下训练 AI,然后将其部署到现实世界的无人机上。其中,一个关键挑战是模型必须对模拟和现实世界之间的差异(如光照、纹理)具有鲁棒性(指控制系统在一定结构 / 大小的参数摄动下维持其它某些性能的特性)。为此,研究人员使用了一个名为跨模态变量自动编码器(CM-VAE)的框架,来生成紧密弥合模拟与现实差距的表征,从而避免对无关数据的过度拟合。

在无人机实验中,一种数据模态考虑了原始无标签传感器输入(FPV 图像),而另一种数据模态描述了与当前任务直接相关的状态信息,后者对应于无人机坐标框架中定义的下一个门的相对姿势。研究人员通过扩展 CM-VAE 框架,得到了一种低维的潜在环境表征。该框架为每个数据模态使用一个编码器 - 解码器对(encoder-decoder pair),同时压缩与单个潜在空间之间的所有输入和输出(图 b)。该系统将有标记和无标记的数据模式自然地纳入潜在变量的训练过程,然后使用模仿学习训练一种深度控制策略,将潜在变量映射到无人机的速度命令中(图 a)。

图 | a. 控制系统架构。来自无人机的视频的输入图像被编码到一种潜在的环境表征中。一个控制策略作用于低维嵌入,以输出所需的机器人控制命令。b. 跨模态 VAE 架构。每个数据样本被编码成单独的潜在空间中,这个潜在空间可以被解码成图像,或者转换成另一种数据模态,比如门相对于无人机的姿态。

该系统的感知模块将输入图像压缩到上述的低维表示中,从 27,648 个变量下降到可以描述它的最基本的 10 个变量。解码后的图像提供了无人机可以看到的前方情况的描述,包括所有可能的门的大小和位置,以及其它不同的背景信息。

图 | 由跨模态表示生成的虚化图像的可视化,解码后的图像直接捕捉到门对应的背景信息

研究人员在 45 米长的带有门的 S 形轨道和 40 米长的带有不同门的圆形轨道上,分别测试了这个系统的能力。他们表示,使用 CM-VAE 的效果明显优于直接编码下一位置的端到端 AI 策略,即使背景存在 “强烈” 的视觉干扰,无人机还是通过使用跨模态感知模块成功完成了任务。

图 | 45 米长的 S 形轨道和 40 米长的圆形轨道

研究人员表示,这些结果显示了该系统在现实世界应用的 “巨大潜力”。比如,尽管存在年龄、体型、性别和种族差异,该系统可能帮助自主搜索和救援机器人更好地识别人类,从而让机器人有更好的机会识别和找回需要帮助的人。

不完美的实验

尽管无人机的实验结果着实令人兴奋。但研究人员表示,他们在实验中遇到了一个意想不到的结果,即将未标记的真实世界数据与标记的模拟数据结合起来训练表征模型,并没有提高整体性能,只使用模拟数据效果更好。

对此,他们认为,未来工作的一个有趣的方向是使用对抗性技术来降低由模拟和真实图像编码的相似场景之间的潜在空间距离,这将降低训练和测试阶段数据分布的差异。此外,研究人员设想扩展使用无标签数据进行策略学习的方法。比如,除了图像之外,是否可以结合不同的数据模式(激光测量、甚至声音)来学习如何对环境进行表征。

尽管还存在一些问题,但无人机实验的成功证明了这种方法具有应用于其他真实机器人任务的巨大潜力,其他机器人同样需要类似的能力来实现实时解释输入,并在确保安全操作的同时做出正确决策。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭