当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 近日,由蚂蚁金服牵头制定的“生物特征识别多模态融合国际标准”正式立项,这一标准的制定,对于多模态领域发展与技术规范产生了重大影响。 为此,笔者与眼神科技、云从、银河水滴等多个企业方,进行

近日,由蚂蚁金服牵头制定的“生物特征识别多模态融合国际标准”正式立项,这一标准的制定,对于多模态领域发展与技术规范产生了重大影响。

为此,笔者与眼神科技、云从、银河水滴等多个企业方,进行了关于多模态领域发展主题的对话。相较于多模态,我们应该先了解单模态。在对话中笔者了解到,对于指纹识别、人脸识别、虹膜识别、指静脉识别等每一种生物识别技术,通过每一种算法用一个传感器去解决一个问题的模式,即为单模态。

后来,随着AI发展和信息化的迭代,不同信息从不同方位、不同传感器一拥而入,单一识别技术已经很难满足这样的发展,在这种情况下,多模态技术应场景而生。但多模态并不是单模态的简单叠加或组合替代,而是基于数据融合的算法融合、并依托平台决策为支撑,是单模态生物识别技术的重大突破,也是识别技术的未来发展方向。

目前,多模态技术主要应用于线上娱乐、身份认证、医疗健康、智慧金融、安防、教育、军工、园区等领域。

应用驱动下,多模态成AI行业发展新风向

多模态从2018年开始成为技术行业的焦点。那时,很多国内大企业,如华为、腾讯、百度、阿里等公司,都开始逐渐把目光瞄向多模态;很多创业公司,如眼神科技、云从、依图、银河水滴等也在思考这个方向性的发展问题。

腾讯AI Lab的博士俞栋曾说“多模态是迈向通用人工智能的重要方向”,通用人工智能是弱人工智能时代需要走的一个方向,弱人工智能是“见多识广”,解决的是感知问题。

在眼神科技创始人兼CEO周军看来:“通用人工智能具有几个属性:自学习、增量学习、增强学习,这些内容结合在一块,是强人工智能。从弱人工智能到强人工智能的奇点,截止目前还没有突破。”“见少知多”、“不见而预知”的强人工智能时代,这是国际前沿人工智能公司一直努力多年的事情,但是技术遇到了天花板。

据了解,眼神科技从早期就已经完成了指纹识别、人脸识别、虹膜识别技术的研发,形成基础算法,其在面向市场推广中发现,单一技术决策存在局限,并在应用驱动下推出多模态融合生物识别技术。“多模态融合生物识别可以提升识别精准度,也能在一定程度提升生物识别技术的场景适应性和隐私安全性。”眼神科技表示。

简单来说,模态就是“感官”,多模态就是将多种感官融合的方式。云从科技解释道:“如果把‘模态’通俗地理解为感官,那么智能音箱就是一台只具备听觉模态的物联网设备,而加载AI分析能力的摄像头可以视为视觉模态的物联网设备,把听觉、视觉甚至更多模态组合到一起,可诞生多模态物联网”。

与眼神科技、云从科技领域略有不同的步态识别企业银河水滴表示,“多模态技术在我国早已得到广泛应用,如在公共安防领域。另外,指纹和人脸识别等技术的配合使用也比较成熟,目前正在向更深入更广泛的程度迈进,在这个过程中,步态识别技术越来越受到重视”。

据悉,步态识别是一种新兴的生物特征识别技术,相较于其他识别方式,步态识别的识别距离更远。例如,普通高清摄像机下识别距离最远可达50米,属于非受控识别,无需识别对象主动配合。步态识别是由体型、头型、肌肉力量、运动神经灵敏度、走路姿态等共同决定,局部变化并不会影响识别结果。

因此,步态识别技术可以有效弥补其他识别技术的不足,比如识别距离普遍较短、需要主动配合或接触等问题。结合了步态识别的多模态技术将有更广泛的应用前景。

同时,银河水滴也称:“每一种信息的来源都可以称为一种模态。就AI而言,步态、人脸、虹膜、指纹、语音等生物特征模态是机器识别的依据,多模态识别即是一种结合以上多种识别技术的解决方案。任何一种识别方式都有一定的不足,多种模式结合可以达到更好的效果”。

新基建下,多模态融合的AI行业进入快车道

国家新基建政策的颁布,让AI行业拥有了更大的发展空间,加之这次生物特征识别多模态融合标准的立项,更是让AI有了更多的想象空间。

新基建实际上是新时代下,可促进物质、能量、数据更高效产生和流动,使其朝着能够产生更大价值的地方汇聚,这次新冠疫情已经切身感受到基于AI技术下,新基建所带来的社会效应。

云从科技称,新基建下AI得到很好应用,而多模态融合是AI技术发展必然结果,因为单点技术存在瓶颈,无法很好发挥AI的作用,容易导致部分功能和体验感缺失。

而在多模态或AI技术闭环的支持下,AI可以在消费端与生产端更好服务社会。“AI是‘头雁’,解决的是问题本身,怎样让能力提高,怎么去解决问题。让AI引领技术发展是整个行业,也是云从当前思考的主要问题。”云从科技补充道。

在消费者端,最能体现更好、更自然交互的是一位24小时的个人助理,它能知道用户什么时候想要什么,用户永远能得到自己期望的服务。

在生产者端,人机协同将能扩展人类专家的能力,比如现在医生一天只能诊断10个人,未来也许在AI的帮助下,通过语音、AI诊断、视觉辅助、大数据等技术可以一天诊断1000个人。

云从科技总结了目前AI设备技术闭环的三种形式:1、感知,包括语音识别、语义理解、多轮对话、NLP、语音精准识别等领等;2、认知,包括自然物体识别、人脸识别、肢体动作识别等;3、决策,包括AI对热量、红外捕捉信号、空间信号的阅读与理解。

眼神科技则向笔者表示:“新基建的重要领域之一就是AI,乘着“新基建”的东风,AI行业发展将加速进入快车道。从这次新冠疫情中可以看到,AI在公共安防、疫情防控、远程办公及服务中发挥了重要作用”。

此外,中国基础设施的“智能化”建设迫在眉睫,智慧城市、智慧安防、智能医疗、智慧社区、智慧教育等基础设施智能化建设进入全面爆发期,将为AI拓展更多创新应用场景和市场空间。在眼神科技看来,“在AI应用场景不断深耕,以及5G、大数据、云计算等新兴技术的融合推动下,多模态融合生物识别是AI未来发展的必经之路”。

不过,目前AI还处于一个初级阶段,更为关注的是更简单层次的交互。比如语音、人脸识别,这些只是感知阶段。而且在信息化时代下,很多场景每天都会产生海量的视频和图像数据,但这些信息并没有得到很好利用,大量值得挖掘的潜在价值,被使用的也仅是冰山一角。

对此,眼神科技称,“在实战应用场景会有很多不可控的因素,比如遮挡、光照等,这些会影响生物特征识别技术的应用,行业需要针对现有实际问题,对各种识别技术进行不断的研发和优化算法”。

云从科技也表示,“现在AI仅处于初步发展阶段,解决的是简单层次的交互,更深层次的多模态融合交互,目前做得还远远不够,有待继续加强”。
       

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭