当前位置:首页 > 芯闻号 > 极客网
[导读]当人与人面对面交流时,唇部动作是核心关注焦点之一。迄今为止,机器人始终难以精准模拟唇部动作,而人类对自身面部神态的关注度极高,尤其对唇部动作更为敏感

当人与人面对面交流时,唇部动作是核心关注焦点之一。迄今为止,机器人始终难以精准模拟唇部动作,而人类对自身面部神态的关注度极高,尤其对唇部动作更为敏感——我们或许能包容机器人怪异的步态、笨拙的手部动作,但哪怕是极其细微的表情失误,都很难被接受。这种严苛的评判标准,正是人们常说的“恐怖谷效应”。如今,美国研究人员开发的拟人面部机器人Emo,正试图通过唇语同步与表情预判技术,打破这一桎梏。

核心突破:跨语言唇语同步与预判式表情系统

Emo的核心优势在于能将唇部动作与语音音频精准同步,呈现出更贴近人类的自然表情,且系统具备跨语言泛化能力,可覆盖法语、中文、阿拉伯语等多种语种。这款机器人旨在优化人机社交交互体验,不仅支持面部表情的非对称呈现,硬件配置也较第一代Eva机器人实现全面升级。

具体来看,其面部采用磁吸式贴合设计,可驱动仿生皮肤灵活形变,相较传统绳索传动系统,控制精度大幅提升;同时面部嵌入高分辨率RGB摄像头,能实现实时视觉感知,精准预判对话对象的表情变化;系统内置的双神经网络架构更是关键,其中自模型负责预测Emo自身的面部表情,交互模型则专注于预判人类对话者的表情。搭配23个面部表情驱动电机与3个颈部运动驱动电机,Emo可实现表情实时同步,与人类达成自然的表情呼应。

哥伦比亚研究人员表示,当前同类技术共有五种,而Emo所采用的新技术表现更优,能最大程度缩小机器人唇部动作与理想参考视频的差异。“该框架可针对11种语音结构各异的非英语语种,生成自然逼真的唇部动作。”研究团队强调,这一技术未来有望广泛应用于教育、养老等需要高频人机交互的领域。

训练与性能:视频自主学习+超高帧率实时响应

在人机交互场景中,当前多数机器人采用被动响应模式,即人类做出动作后才模仿相应表情,交互体验极为生硬。而预判式表情能提前预测人类情绪并生成对应表情,是实现真实、高情商人机交互的核心关键,比如机器人主动的微笑表情,就能有效增强人类对其的信任与社交联结。

要实现这一目标,预判人类表情变化是Emo面临的核心技术难点,唯有精准预判才能为动作执行预留充足时间。为此,研究人员招募了45名受试者,录制970段视频数据,以此训练出一套高效的预判式面部表情模型。该模型能捕捉人类面部表情的初始变化,并准确预测后续表情发展趋势。在训练过程中,输入帧从表情峰值周围的四个帧中随机选取,标签则由随后的四个帧提供,确保了模型预测的精准性与泛化性。

出色的硬件与算法协同,带来了极致的响应速度。在2019款苹果MacBook Pro上,预判模型的运行帧率可达650帧/秒,逆模型的电机指令执行帧率更是高达8000帧/秒,这使得机器人能在0.002秒内完成表情生成。而人类面部表情的生成通常需要0.841±0.713秒,这为机器人实现实时表情响应预留了充足的缓冲时间。借助预判模型与逆模型的协同作用,机器人无需直接观测目标面部,就能与人类实现面部表情的同步呈现。

值得一提的是,哥伦比亚团队开发的系统首次实现了机器人通过自主学习掌握适用于说话、唱歌等任务的面部唇部动作。它不仅能清晰说出多种语言的词汇,甚至还演唱了人工智能原创专辑《你好,世界》(Hello World)中的歌曲。机器人的学习过程极具“自主性”:先对着镜子观察自身影像,摸清26个面部驱动电机的操控方式,随后通过观看YouTube视频,自主学会了模仿人类的唇部动作。“机器人系统与人类互动越频繁,表现会越出色。”哥伦比亚大学教授霍德·利普森(Hod Lipson)表示。

挑战与展望:攻克语音难题,迈向全面人机融合

让机器人精准实现唇部动作,并非易事,主要面临两大核心挑战:一是硬件支持,需要具备灵活变形能力的仿生皮肤和高性能微型驱动电机;二是技术层面,唇部运动是一套复杂的动态过程,其变化规律由一连串语音音节和音素共同决定。人类的唇部动作由几十块肌肉协同驱动,这使得人形机器人的面部动作极易显得生硬、不自然,进而引发“恐怖谷效应”。

目前来看,哥伦比亚团队开发的系统在唇部动作模拟上仍有提升空间。利普森坦言:“我们在模拟爆破音(比如B)和噘唇音(如字母W的发音)时,遇到不少困难,但假以时日,经过反复训练,未来会得到提升。”此外,该技术还存在一定的文化局限性,比如在不同文化背景下,人类的表情表达与眼神交流习惯存在差异,单纯的表情模仿难以适配所有场景。但研究团队认为,对人类表情的预判能力,已是机器人实现社交能力发展的关键第一步。

当今机器人领域的研究重点多集中在腿部、手部动作上,但利普森判断,未来只要涉及人机交互场景,面部表情就不可或缺。“未来所有人形机器人都会配备面部结构,而当它们真正拥有面部时,必须灵活地转动眼球、活动嘴唇,否则就会永远深陷恐怖谷效应之中。”(小刀)

声明:该篇文章为本站原创,未经授权不予转载,侵权必究。
换一批
延伸阅读

特朗普集团近日取消了其新推出的T1智能手机“将在美国制造”的宣传标语,此举源于外界对这款手机能否以当前定价在美国本土生产的质疑。

关键字: 特朗普 苹果 AI

美国总统特朗普在公开场合表示,他已要求苹果公司CEO蒂姆·库克停止在印度建厂,矛头直指该公司生产多元化的计划。

关键字: 特朗普 苹果 AI

4月10日消息,据媒体报道,美国总统特朗普宣布,美国对部分贸易伙伴暂停90天执行新关税政策,同时对中国的关税提高到125%,该消息公布后苹果股价飙升了15%。这次反弹使苹果市值增加了4000多亿美元,目前苹果市值接近3万...

关键字: 特朗普 AI 人工智能 特斯拉

3月25日消息,据报道,当地时间3月20日,美国总统特朗普在社交媒体平台“真实社交”上发文写道:“那些被抓到破坏特斯拉的人,将有很大可能被判入狱长达20年,这包括资助(破坏特斯拉汽车)者,我们正在寻找你。”

关键字: 特朗普 AI 人工智能 特斯拉

1月22日消息,刚刚,新任美国总统特朗普放出重磅消息,将全力支持美国AI发展。

关键字: 特朗普 AI 人工智能

特朗普先生有两件事一定会载入史册,一个是筑墙,一个是挖坑。在美墨边境筑墙的口号确保边境安全,降低因非法移民引起的犯罪率过高问题;在中美科技产业之间挖坑的口号也是安全,美国企业不得使用对美国国家安全构成威胁的电信设备,总统...

关键字: 特朗普 孤立主义 科技产业

据路透社1月17日消息显示,知情人士透露,特朗普已通知英特尔、铠侠在内的几家华为供应商,将要撤销其对华为的出货的部分许可证,同时将拒绝其他数十个向华为供货的申请。据透露,共有4家公司的8份许可被撤销。另外,相关公司收到撤...

关键字: 华为 芯片 特朗普

曾在2018年时被美国总统特朗普称作“世界第八奇迹”的富士康集团在美国威斯康星州投资建设的LCD显示屏工厂项目,如今却因为富士康将项目大幅缩水并拒绝签订新的合同而陷入了僵局。这也导致富士康无法从当地政府那里获得约40亿美...

关键字: 特朗普 富士康

今年5月,因自己发布的推文被贴上“无确凿依据”标签而与推特发生激烈争执后,美国总统特朗普签署了一项行政令,下令要求重审《通信规范法》第230条。

关键字: 谷歌 facebook 特朗普

众所周知,寄往白宫的所有邮件在到达白宫之前都会在他地进行分类和筛选。9月19日,根据美国相关执法官员的通报,本周早些时候,执法人员截获了一个寄给特朗普总统的包裹,该包裹内包含蓖麻毒蛋白。

关键字: 美国 白宫 特朗普
关闭