当前位置:首页 > 芯闻号 > 极客网
[导读]当人与人面对面交流时,唇部动作是核心关注焦点之一。迄今为止,机器人始终难以精准模拟唇部动作,而人类对自身面部神态的关注度极高,尤其对唇部动作更为敏感

当人与人面对面交流时,唇部动作是核心关注焦点之一。迄今为止,机器人始终难以精准模拟唇部动作,而人类对自身面部神态的关注度极高,尤其对唇部动作更为敏感——我们或许能包容机器人怪异的步态、笨拙的手部动作,但哪怕是极其细微的表情失误,都很难被接受。这种严苛的评判标准,正是人们常说的“恐怖谷效应”。如今,美国研究人员开发的拟人面部机器人Emo,正试图通过唇语同步与表情预判技术,打破这一桎梏。

核心突破:跨语言唇语同步与预判式表情系统

Emo的核心优势在于能将唇部动作与语音音频精准同步,呈现出更贴近人类的自然表情,且系统具备跨语言泛化能力,可覆盖法语、中文、阿拉伯语等多种语种。这款机器人旨在优化人机社交交互体验,不仅支持面部表情的非对称呈现,硬件配置也较第一代Eva机器人实现全面升级。

具体来看,其面部采用磁吸式贴合设计,可驱动仿生皮肤灵活形变,相较传统绳索传动系统,控制精度大幅提升;同时面部嵌入高分辨率RGB摄像头,能实现实时视觉感知,精准预判对话对象的表情变化;系统内置的双神经网络架构更是关键,其中自模型负责预测Emo自身的面部表情,交互模型则专注于预判人类对话者的表情。搭配23个面部表情驱动电机与3个颈部运动驱动电机,Emo可实现表情实时同步,与人类达成自然的表情呼应。

哥伦比亚研究人员表示,当前同类技术共有五种,而Emo所采用的新技术表现更优,能最大程度缩小机器人唇部动作与理想参考视频的差异。“该框架可针对11种语音结构各异的非英语语种,生成自然逼真的唇部动作。”研究团队强调,这一技术未来有望广泛应用于教育、养老等需要高频人机交互的领域。

训练与性能:视频自主学习+超高帧率实时响应

在人机交互场景中,当前多数机器人采用被动响应模式,即人类做出动作后才模仿相应表情,交互体验极为生硬。而预判式表情能提前预测人类情绪并生成对应表情,是实现真实、高情商人机交互的核心关键,比如机器人主动的微笑表情,就能有效增强人类对其的信任与社交联结。

要实现这一目标,预判人类表情变化是Emo面临的核心技术难点,唯有精准预判才能为动作执行预留充足时间。为此,研究人员招募了45名受试者,录制970段视频数据,以此训练出一套高效的预判式面部表情模型。该模型能捕捉人类面部表情的初始变化,并准确预测后续表情发展趋势。在训练过程中,输入帧从表情峰值周围的四个帧中随机选取,标签则由随后的四个帧提供,确保了模型预测的精准性与泛化性。

出色的硬件与算法协同,带来了极致的响应速度。在2019款苹果MacBook Pro上,预判模型的运行帧率可达650帧/秒,逆模型的电机指令执行帧率更是高达8000帧/秒,这使得机器人能在0.002秒内完成表情生成。而人类面部表情的生成通常需要0.841±0.713秒,这为机器人实现实时表情响应预留了充足的缓冲时间。借助预判模型与逆模型的协同作用,机器人无需直接观测目标面部,就能与人类实现面部表情的同步呈现。

值得一提的是,哥伦比亚团队开发的系统首次实现了机器人通过自主学习掌握适用于说话、唱歌等任务的面部唇部动作。它不仅能清晰说出多种语言的词汇,甚至还演唱了人工智能原创专辑《你好,世界》(Hello World)中的歌曲。机器人的学习过程极具“自主性”:先对着镜子观察自身影像,摸清26个面部驱动电机的操控方式,随后通过观看YouTube视频,自主学会了模仿人类的唇部动作。“机器人系统与人类互动越频繁,表现会越出色。”哥伦比亚大学教授霍德·利普森(Hod Lipson)表示。

挑战与展望:攻克语音难题,迈向全面人机融合

让机器人精准实现唇部动作,并非易事,主要面临两大核心挑战:一是硬件支持,需要具备灵活变形能力的仿生皮肤和高性能微型驱动电机;二是技术层面,唇部运动是一套复杂的动态过程,其变化规律由一连串语音音节和音素共同决定。人类的唇部动作由几十块肌肉协同驱动,这使得人形机器人的面部动作极易显得生硬、不自然,进而引发“恐怖谷效应”。

目前来看,哥伦比亚团队开发的系统在唇部动作模拟上仍有提升空间。利普森坦言:“我们在模拟爆破音(比如B)和噘唇音(如字母W的发音)时,遇到不少困难,但假以时日,经过反复训练,未来会得到提升。”此外,该技术还存在一定的文化局限性,比如在不同文化背景下,人类的表情表达与眼神交流习惯存在差异,单纯的表情模仿难以适配所有场景。但研究团队认为,对人类表情的预判能力,已是机器人实现社交能力发展的关键第一步。

当今机器人领域的研究重点多集中在腿部、手部动作上,但利普森判断,未来只要涉及人机交互场景,面部表情就不可或缺。“未来所有人形机器人都会配备面部结构,而当它们真正拥有面部时,必须灵活地转动眼球、活动嘴唇,否则就会永远深陷恐怖谷效应之中。”(小刀)

声明:该篇文章为本站原创,未经授权不予转载,侵权必究。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭