当前位置:首页 > 消费电子 > 消费电子
[导读]你见过蒙娜丽莎动起来的样子吗?只要一张照片,就能把静态的人物变成动态的,而且还可以根据你的表情动起来。要是用在换脸上,恐怕Deepfakes被要拍在沙滩上了。

你见过蒙娜丽莎动起来的样子吗?只要一张照片,就能把静态的人物变成动态的,而且还可以根据你的表情动起来。要是用在换脸上,恐怕Deepfakes被要拍在沙滩上了。

虽然似乎没有微笑时那么好看,但不得不承认的是,动图看起来确实跟画中的蒙娜丽莎十分相似。

除了蒙娜丽莎,爱因斯坦和玛丽莲·梦露也可以从静态图变成不同表情的动图。

这是莫斯科三星 AI 研究中心和斯科尔科沃科学技术研究院的最新成果。

跟之前的 Deepfake 技术类似,两者都是从已有图片或视频中提取特征,然后经过神经网络的加工,生成了足可以假乱真的动态图像或连贯视频。

不同的是,Deepfake 需要大量训练和数据才能生成假图像,而这项基于卷积神经网络和少样本学习的新技术,只需要非常小的数据集,甚至只靠一张图片,就可以生成图片中主人公的连贯面部动图,可以是说话的样子,也可以是其他表情,大大提升了模型的训练效率和广泛性。

研究人员还展示了 AI 如何从两张图片中提取面都特征,之后融合为一张图片,与之前英伟达的 StyleGAN 技术类似。(每刷新它一次,你都将得到一个从未存在过的人)

该研究成果以预印本论文的形式发表于 Arxiv 上。

利用少样本学习实现 AI 换脸

用 AI 实现换脸和造假人已经不是什么新鲜事,几年前大火的 Deepfake 应用和最近的英伟达 StyleGAN 都可以实现。它们还可以继续升级和改良,比如结合 Deepfake 和 GAN,从而获得更厉害的“造假”效果。

只不过这类技术都有一个缺点,就是需要针对某人、某物或某类图片(样本)进行大量训练,才能获得最佳效果。

于是研究团队希望打造一个“少样本学习(few-shot learning)”模型,在训练完成之后,可以用最少的目标图片,实现对目标的模仿,尤其是模拟出目标人物说话时的样子,包括面部表情、眼睛、神态、脸型和嘴型等变化。

少样本学习是近年深度学习领域的热门研究方向之一,旨在通过预训练模型获取先验知识,改善传统深度学习技术对海量数据的依赖,在数据缺失的情况下,还可以保持学习效率。

为了实现这一目标,研究人员采用了元学习(meta-learning)方法,让 AI 具备自学能力。

换句话说,就是让 AI 充分利用现有知识,来分析未来任务的特征,从而学会“如何学习”。比如让 AI 观看张三说话时的面部表情,提取动作特征(现有知识),再试着看着李四的脸提取特征(新任务),然后模拟出李四说话时的面部动作。

建立元学习架构

他们创建了三套神经网络来实现元学习架构。

第一个是嵌入器网络(Embedder),负责将输入视频帧和人物面部特征映射成多维度向量。他们使用了开源的面部特征提取代码。训练视频的每一帧都有对应的面部特征图,由不同颜色的线条勾勒出来,里面包含的五官信息与姿势无关。

第二个是生成器网络(Generator),将嵌入器网络没看过的新特征图和多维度向量作为输入值,穿过到多个卷积层,输出一个合成(视频)帧——会使用参考视频帧(ground truth)作为参考。生成器的训练目的是让合成帧和参考帧尽可能相似,更好地模拟目标对象的动态表情。

最后一个是鉴别器网络(Discriminator),负责整合和处理原视频帧、合成视频帧、对应的面部特征图和训练序列。它通过序列数,判断合成帧与参考帧是否吻合,有多大差距,以及与面部特征图是否匹配。根据匹配程度,网络会计算出一个真实性得分,显示出两者之间的差别。

研究人员会通过(条件)鉴别器输出的得分对三个网络进行整体优化,感知和对抗损失函数都包含其中。

元学习模型构建完成后,研究人员使用了开源的 VoxCeleb1 和 VoxCeleb2 数据集,进行训练和测试。前者拥有 10 万多个视频样本,来自 1251 个名人,被用来与基准模型性能进行比较,后者拥有 100 多万个样本,来自 6112 个人,用于进行预训练和测试新模型效果。

在小样本学习的前提下,模型需要凭借预训练的经验,观看一小段完全没有见过的一个人的视频,在每一帧中模仿这个人的面部表情,并与真正的表情对比,得出结果。AI 可以使用的帧越多(图片越多),比如从 1 张图增加到 32 张图,得到的最终效果就越贴近真实。

虽然从综合评分来看,模型的准确度有时不及基准模型,但这是少样本方法和模型本身导致的,还有进一步的提升空间。而且我们从结果也能看出,AI 模拟的整体效果还是可以接受的。

除此之外,研究人员还尝试了静图变动图,也就是我们最开始看到的蒙娜丽莎和爱因斯坦动图。模型可以在一定程度上模仿出相似的表情,但背景图案,尤其是有头发的地方,偶尔会出现小瑕疵。

不过瑕不掩瑜,这样一个少样本对抗网络的元学习框架,非常适合在没有大量数据的情况下实现 AI 换脸。而且还能启发类似的后续研究,在该模型的基础上改良和创新,比如通过改善面部特征提取过程,让人物表情模拟更加自然,或者加入眼神凝视等目前无法实现的高难特征提取机制。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

慕尼黑2025年9月11日 /美通社/ -- 高端智能电动汽车品牌问界(AITO)在2025年德国国际汽车及智慧出行博览会(IAA MOBILITY)上,正式发布了其最新全球产品阵容——专为中东市场深度本地化打造的AIT...

关键字: AI 智能驾驶 测试 生态系统

拉斯维加斯2025年9月11日 /美通社/ -- 在9月8日至11日举办的RE+ 2025展会上,全球综合储能解决方案供应商德赛电池(Desay Battery)全面展示了其创新成果,并宣布与深圳市华宝新能源股份有限公司...

关键字: 电池 电芯 人工智能 锂电

香港2025年 9月12日 /美通社/ -- 全球领先的互联网社区创建者 - 网龙网络控股有限公司 ("网龙"或"本公司",香港交易所股票代码:777)欣然宣布,其子公司My...

关键字: AI 远程控制 控制技术 BSP

AI赋能制造,黄埔汇聚全球新机遇 广州2025年9月11日 /美通社/ -- 2025年9月10日,由广州开发区投资集团有限公司、广州开发区黄埔区具身智能机器人产业发展促进会、华南美国商会共同主办的"2025...

关键字: 智能制造 AI 人工智能 供应链

香港2025年9月11日 /美通社/ -- 华钦科技集团(纳斯达克代码:CLPS,以下简称"华钦科技"或"集团")近日宣布成功利用人工智能(AI),包括微软Copilot等客户指定AI模型,完成对一家香港大型银行30年历...

关键字: 人工智能 PS REACT 测试

天津2025年9月11日 /美通社/ -- 国际能源署(IEA)数据显示,2024 年全球数据中心电力消耗达 415 太瓦时,占全球总用电量的 1.5%,预计到 2030 年,这一数字将飙升至 945 太瓦时,近乎翻番,...

关键字: 模型 AI 数据中心 BSP

深圳2025年9月11日 /美通社/ -- 近日,德国柏林国际电子消费品展览会(简称IFA)期间,国际公认的测试、检验和认证机构SGS为极壳(Hypershell) 全球首款户外动力外骨骼产品Hypershell X 系...

关键字: SHELL RS AI SI

近日,一则关于 AI 算力领域的消息引发行业震动!据科技网站 The Information 援引四位知情人士爆料,中国科技巨头阿里巴巴与百度已正式将自研芯片应用于 AI 大模型训练,打破了此前对英伟达芯片的单一依赖。

关键字: AI 算力 阿里 百度 芯片 AI模型

2025年9月11日,中国上海 — 思特威(上海)电子科技股份有限公司(股票简称:思特威,股票代码:688213)近日宣布,全新推出5000万像素0.7μm像素尺寸手机应用CMOS图像传感器——SC535XS。SC535...

关键字: CMOS图像传感器 手机 AI
关闭