[导读]编译|禾木木出品| AI科技大本营(ID:rgznai100)你是否能想象AI以第一人称视角来理解世界是什么样的呢?未来,以第一人称视角理解世界的AI可以开启沉浸式体验的新时代。增强现实(AR)眼镜和虚拟现实(VR)耳机等设备在日常生活中,将会变得像智能手机一样普遍且有用。想象一...
编译 | 禾木木出品 | AI科技大本营(ID:rgznai100)你是否能想象 AI 以第一人称视角来理解世界是什么样的呢?未来,以第一人称视角理解世界的 AI 可以开启沉浸式体验的新时代。增强现实(AR)眼镜和虚拟现实(VR)耳机等设备在日常生活中,将会变得像智能手机一样普遍且有用。想象一下,你的 AR 设备准确地显示了如何在架子鼓课上握住鼓棒,知道你完成一个食谱;帮助你找到丢失的钥匙,或是像全息图一样在你的记忆中重现。为了构建这些新技术,人工智能需要像我们一样,可以从第一人称的角度理解世界并进行互动。在研究界,通常称为以自我为中心的感知。然而,今天的计算机视觉系统通常是以第三人称视角来拍摄的数百万张照片或是在视频中学习,而相机只是动作的旁观者。
近日,Facebook AI 宣布推出 Ego4D,这是一个雄心勃勃的长期项目,为的就是解决以自我为中心的感知领域的研究挑战。研究者汇集了一个由 9 个国家的 13 所大学和实验室组成的联盟,他们在野外收集了 700 多名参与者的日常生活,超过 2,200 小时的第一人称视频。Ego4D 是一个具有多样性的大规模的以第一人称视角为中心的数据集。它由来自全球 9 个不同国家 74 个地点的 855 名独特参与者收集的 3025 小时视频组成。该项目汇集了 88 名国际财团的研究人员,以大幅提高公开的以自我为中心的数据规模,使其在录像时间方面比任何其他数据集都大20倍以上。
AI 也可以体验第一视觉
Facebook 首席研究科学家克里斯汀·格劳曼 (Kristen Grauman) 表示,今天的计算机视觉系统不像人类那样与第一人称和第三人称视角相关联。就像是,将计算机视觉系统绑在过山车上,即使它是根据从地面边线显示的数十万张过山车的图像或视频进行训练的,但是它也不知道它在看什么。为了让人工智能系统能够像我们一样的方式与世界互动,人工智能领域需要发展到一种全新的第一人称感知范式,”格劳曼在一份声明中说。“这意味着人工智能在实时运动、交互和多感官观察的背景下,通过人眼理解日常生活活动。”Facebook AI 还开发了五个以第一人称视觉体验为中心的基准挑战,这将推动未来 AI 助手向现实世界应用的发展。例如,“我把钥匙放哪儿了?”“手机在哪里?”“有看到我的充电线吗?”这种场景别提有多熟悉了,几乎每天都会上场。
-
Ego4D 的第一个基准挑战是情景记忆(Episodic memory)。
关键就是什么时候发生的?AI 可以通过检索过去以自我为中心的视频中的关键时刻来回答自由形式的问题并扩展个人记忆。
你可以问 AI 助手各种各样的问题,例如:我把孩子最喜欢的泰迪熊放哪儿了?
人工智能可以理解佩戴者的行为会如何影响这个人未来的状态,比如这个人可能会移动到哪里,他们可能会触摸什么物体,或者他们接下来可能会从事什么活动。预测行动不仅需要认识到已经发生的事情,还需要展望未来,预测下一步行动。这样AI系统就可以在当下提供有用的指导。例如,就在你想要再次准备向锅里加盐时,你的人工智能助手会赶紧通知你“等等,您已经加盐了”
-
第三个挑战基准就是手-物之间的互动(Hand and object manipulation)也是难点和关键的一步,因为AI需要理解在做什么,如何做?
学习手如何与物体互动对于AI指导我们的日常生活至关重要。AI必须检测第一人称的人-物交互,识别抓取,并检测物体状态变化。这种推动力也受到机器人学习的推动,机器人可以通过视频中观察到的人们的经验间接获得经验。
因此,当你在烹饪一份食谱时,AI 助手可以指导你需要哪些配料,需要先做什么,了解你已经做了什么,指导你完成每一个关键步骤。人类可以用声音来理解世界,未来的人工智能也要学会这种视听记录(Audio-visual diarization)。如果你正在上一堂重要的课,但因收到的信息而分了心,你可以问AI:“教授把我们的试卷收上去之后,课堂讨论的主要话题是什么?”
我正在与谁互动,如何互动?例如“如何在嘈杂的地方更好地听到别人说话的声音”
-
社会互动(Social interaction)是 Ego4D 的最后一个方向。
除了识别视觉和声音提示外,理解社交互动是智能 AI 助手的核心。一个社交智能的 AI 会理解谁在和谁说话,谁在关注谁。
所以,下次参加晚宴时,即使再嘈杂,AI 助手可以帮助你专注于桌子对面和你说话的人在说什么。以上这些基准挑战都是以第一人称视觉为中心的人工智能的基本构建模块,这将让 AI 不仅可以在现实世界中理解和互动,还可以在元宇宙中进行理解和交互,构成更有用的 AI 助手和其他未来创新的基础。
解开真实数据集
基准和数据集在历史上被证明是人工智能行业创新的关键催化剂。毕竟,今天的 CV 系统几乎可以识别图像中的任何对象,它是建立在数据集和基准(例如 MNIST、COCO 和 ImageNet)之上的,它们为研究人员提供了一个用于研究真实世界图像的试验台。但是以自我为中心的感知是一个全新的领域。我们不能使用昨天的工具来构建明天的创新。Ego4D 前所未有的规模和多样性对于引入下一代智能 AI 系统至关重要。为了构建这个数据集,每所合作大学的团队向研究者分发了头戴式摄像头和其他可穿戴传感器,以便他们能够捕捉第一人称、无脚本视频。日常生活。参与者从日常场景中录制大约8分钟的视频片段,例如杂货店购物、烹饪和边玩游戏边交谈以及与家人和朋友一起参与其他集体活动。Ego4D 捕捉了佩戴摄像机的人在特定环境中选择注视的内容,用手或是面前的物体做了什么,以及他们如何以第一人称视觉与其他人进行互动。与现有数据集相比,Ego4D 数据集提供了更大的场景、人物和活动的多样性,这增加了针对不同背景、种族、职业和年龄的人训练的模型的适用性。
Ego4D 及以后的下一步是什么?
Facebook AI 试图通过 Ego4D 项目打造一条全新的道路,以构建更智能、更具交互性和灵活性的计算机视觉系统。随着人工智能对人们正常生活方式有了更深入的理解,它可以开始以前所未有的方式对交互体验进行情境化和个性化。Grauman表示:“Ego4D 使人工智能有可能获得根植于物理和社会世界的知识,这些知识是通过生活在其中的人的第一人称视角收集的。”“由此开始,人工智能不仅会更好地了解周围的世界,有一天它可能还会实现个性化——它能知道你最喜欢的咖啡杯,或者为你的下一次家庭旅行指引路线。”有了 Ego4D 的基准支持,配合上在全新数据集中的训练,AI 助手有可能以非常独特和有意义的方式提供很多的价值,例如,帮助回忆起最近与同事交谈中的关键信息,或者指导制作新的晚餐食谱,新的宜家家居等。Facebook 表示,从这一系列工作中获得的价值将推动我们走向未来的现实。玛丽皇后大学的人工智能研究员Mike Cook认为,“从积极的角度来说,至少就目前而言,这是一个非常棒的大型数据集。”“但,这实际上并没有解决人工智能中的一个紧迫挑战或问题......除非你是一家想要销售可穿戴相机的科技公司。它确实告诉你更多关于Facebook的未来计划,但是......他们向它注入资金并不意味着它一定会变得重要。”参考链接:https://venturebeat.com/2021/10/14/facebook-introduces-dataset-and-benchmarks-to-make-ai-more-egocentric/https://ai.facebook.com/blog/teaching-ai-to-perceive-the-world-through-your-eyes/本文由AI科技大本营翻译,转载请注明出处。
本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。
关键字:
驱动电源
在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。
关键字:
工业电机
驱动电源
LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...
关键字:
驱动电源
照明系统
散热
根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。
关键字:
LED
设计
驱动电源
电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...
关键字:
电动汽车
新能源
驱动电源
在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...
关键字:
发光二极管
驱动电源
LED
LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。
关键字:
LED
驱动电源
功率因数校正
在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...
关键字:
LED照明技术
电磁干扰
驱动电源
开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源
关键字:
LED
驱动电源
开关电源
LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。
关键字:
LED
隧道灯
驱动电源
LED驱动电源在LED照明系统中扮演着至关重要的角色。由于LED具有节能、环保、长寿命等优点,使得LED照明在各个领域得到广泛应用。然而,LED的电流、电压特性需要特定的驱动电源才能正常工作。本文将介绍常用的LED驱动电...
关键字:
LED驱动电源
led照明
LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电源转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。
关键字:
LED
驱动电源
高压工频交流
种种迹象都在表明,半导体行业或已提前进入寒冬时期,越来越多的厂商开始扛不住了……
关键字:
LED
半导体
驱动电源
崧盛股份9日发布投资者关系活动记录表,就植物照明发展趋势、行业壁垒等问题进行分享。植物照明未来市场需求广阔崧盛股份指出,植物照明将会走向长期产业领域。主要原因有三:第一,LED植物照明赋能终端种植更具有经济价值。由于LE...
关键字:
崧盛股份
驱动电源
在当今高度发展的技术中,电子产品的升级越来越快,LED灯技术也在不断发展,这使我们的城市变得丰富多彩。 LED驱动电源将电源转换为特定的电压和电流,以驱动LED发光。通常情况下:LED驱动电源的输入包括高压工频交流电(即...
关键字:
LED
驱动电源
高压直流
人类社会的进步离不开社会上各行各业的努力,各种各样的电子产品的更新换代离不开我们的设计者的努力,其实很多人并不会去了解电子产品的组成,比如LED电源。
关键字:
LED
驱动电源
低压直流
随着科学技术的发展,LED技术也在不断发展,为我们的生活带来各种便利,为我们提供各种各样生活信息,造福着我们人类。LED驱动电源实际上是一种电源,但是它是一种特定的电源,用于驱动LED发射带有电压或电流的光。 因此,LE...
关键字:
LED
驱动电源
电流
LED灯作为一种新型节能和无污染光源,由于其特有的发光照明特性,在现代照明应用中发挥着革命性的作用。作为 LED 照明产业链中最为核心的部件之一,LED 驱动电源的驱动控制技术所存在的可靠性低、成本高等典型问题一直制约着...
关键字:
多路
LED
驱动电源
随着社会的快速发展,LED技术也在飞速发展,为我们的城市的灯光焕发光彩,让我们的生活越来越有趣,那么你知道LED需要LED驱动电源吗?那么你知道什么是LED驱动电源吗?
关键字:
LED
开关电源
驱动电源
早前有新闻称,Cree在2018年开始宣布转型高科技半导体领域,并一边逐渐脱离照明与LED相关业务,一边持续投资半导体。在今日,Cree宣布与SMART Global Holdings, Inc.达成最终协议,拟将LED...
关键字:
cree
led照明