当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 「你们的客户有哪些?」「这个不能细说,很多签了保密协议。不过……」Testin 云测 CMO 张鹏飞停顿了下,手指下意识地敲了敲桌面:「我们的客户覆盖智能驾驶、智慧城市、新零售、金融等领域。」他

「你们的客户有哪些?」「这个不能细说,很多签了保密协议。不过……」Testin 云测 CMO 张鹏飞停顿了下,手指下意识地敲了敲桌面:「我们的客户覆盖智能驾驶、智慧城市、新零售、金融等领域。」他继续补充道:「还有越来越多的智能化转型的传统行业客户,选择采用我们的数据标注服务」。

创建于 2011 年的 TesTIn 云测在移动互联网时代从应用测试业务出发,顺势而起并成为企业服务明星企业。经过行业前瞻判断,积极布局定制化数据标注业务领域,成立了云测数据品牌。在数据标注领域,云测数据已然是国内的第一梯队。

人工智能正迅速向应用人工智能发展,拥抱产业的人工智能对数据标注的门槛在不断提高。「比如在自动驾驶领域,现在主流的是多传感器融合方案,从摄像头增加到激光雷达,从二维图像数据发展到三维图像数据,多模态的数据帮助算法模型更好的训练,只是由于激光雷达的价格比较高,所以很少会有人去使用和标注。」但未来硬件成本的下降是必然的,而在 Waymo、Uber 等较早做自动驾驶的企业中,也已经可以看到三维图像增加的趋势。

AI 训练的「蛋白粉」

数据采集和标注都不是新鲜的事情,伴随着 AI 兴起,约在 2011 年相应的商业生态也随之而生,2015 年行业进入快速增长期,但许多问题也同时爆发——「鱼龙混杂」,可以这样形容早期采集和标注的数据。

「2015 年时,数据的标注需求很简单,可能客户就说,我这有批图片,人脸拉框,尽量贴合,这个需求文档就已经描述完了,而今年,我们发现同样是做人脸标记的企业需求,一张 A4 纸都没办法把所有的要求写完。」对于这样复杂的标记任务,云测数据在做之前首先要小范围实验,然后需要开会由专人讲解,并在标注过程中随时做抽查,看标注员的理解是否正确:「精度会有多高呢?一张人脸需要你准确地在内眼角上标注人脸关键点,在图片上,内眼角也就不到 100 像素,而任务还会精确到标注到具体哪个像素上。」

具体到 AI 数据服务中,以 AI 企业数据增强需求为例。在云测数据的数据场景实验室中,绿色的幕布前,一位群众演员站在中央摆出不同的表情,正对着摄像机拍摄,演员的周围布满了光源,让其面部没有任何死角。对 AI 企业来说,拍摄这样的一张「纯净数据「,可以拓展更多的数据价值。当然,搭建这样的采集环境,对 AI 数据服务商有着光线,被采样本等条件的严格要求。

表情采集讲解中 | 图片来源:云测数据

「我们在前两年做人脸的采集时,对背景、光线还没有什么要求。」贾宇航说,在过去两年,AI 企业对数据的采集和标注都变得更具有策略性:「比如说自动驾驶,以前恨不得天天都在采集,把数据都标上,现在就要是在雨天、雪天去采集,要去人流密集、或者是很多卡车、三轮车的特定场景,非常细化。」

而这也是 AI 真实落地的必由之路,以往粗放式采集、大批量标记的模式逐渐被定制化采集、高精度标记模式取代,要到趋近 AI 产品落地前的水平,高质精准数据对 AI 企业来说,就像蛋白粉对于职业运动员一样必不可少。

行业洗牌在即

数据标注行业发展早期,由于门槛较低,让这个行业鱼龙混杂,同质化竞争严重,甚至出现了以往传统行业常见的多道贩子。,而供过于求的市场和过去数年 AI 企业对数据质量的相对不重视,以及数据标注员被称为 AI 从业人员的底层,让这个行业进一步陷入了低价低质的怪圈。

大量劳动密集型的数据标注工厂在 AI 产业爆发初期,为中国人工智能企业的崛起做出了巨大的贡献。随着人工智能产业的发展与进化,数据标注行业开始朝着专业化、精细化、定制化方向发展。AI 企业在逐步落地过程中发现,所需要的数据维度和复杂度正变得越来越高,数据服务的众包模式以及通用数据集已经难以满足 AI 企业的数据需求。「精准优质」、「安全独立」的数据被认为是 AI 企业落地前的刚需。

2018 年初,甲子光年曾报道称,BAT 和 AI 企业占到了数据标注任务来源的约 7 成,但随着 AI 落地到传统行业,这个比例正发生变化。「比如银行、保险、汽车这些行业,在引入人工智能时有很大的势能。」贾宇航用车内的疲劳检测来举例,虽然市面上有不少开源或付费的数据集,企业也可以比较容易地获取算法然后进行训练,但作为整车厂,关心的并不是模拟器上的准确度,而是具体在自己某一型号的汽车上,在后视镜或是中控台上摆放的摄像头的具体效果,如果数据不是真实地在这个环境下采集,很难实际论证。

一开始就定位定制化采集和高精度标准的云测数据,采取的是自建基地模式,全职雇佣数据服务人员。从商业模式上来看,比起欧美逐渐成熟的如 Scale AI 的众包模式,云测数据想的会更远一些,自建基地模式要更稳定高效,另一方面,也能更规范性地保护数据隐私。

TesTIn 云测 CMO 张鹏飞补充道「从整体看来,AI 数据行业关于安全、隐私等方面并没有统一的标准和强调重视。但从我们长远角度出发,一直在隐私和安全防护角度下大力气服务行业、树立数据质量标杆,只有以这种负责的态度来服务客户,我们的行业才能『良币驱除劣币』,真正让人工智能成为新一轮技术革命,改变整个社会和人类进程」。

「安全」和「独立」显然密不可分。据了解,云测数据坚持独立第三方的立场,与所有数据采集的用户都签订数据授权协议(包括支持欧盟 GDPR 协议),对客户定制的数据交付后不留底全部删除,并建立了从防火墙到内部信息系统管护、各终端不联网、USB 接口封死等数据保障机制来保证数据安全。

为了尽量提升效率和保证数据质量和数据安全,云测数据在华北、华东、华南建立数据标注基地。一般 AI 产品在发布前一个月就需要拿到标注好的数据进行训练,而数据训练前一个月就应该完成数据的采集,对追求速度的 AI 企业来说是分秒必争的。「我们现在千人规模的全职的数据人员,但还是远远不够。」

不久前 IDC 联合量子位发布的《AI 落地白皮书》中称,中国在全球人工智能市场占比 12%,位居第二,但增速 64% 位居全球第一,云测数据在数据采集和标准的市场还有庞大的增长空间,贾宇航认为,未来他们会更加深入 AI 细分领域和场景,并会考虑在未来进一步开拓国际市场。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

2024 年5月13日 – 专注于推动行业创新的知名新品引入 (NPI) 代理商™贸泽电子 (Mouser Electronics) 是英特尔®产品的全球授权代理商。英特尔®宣布正式成立Altera™,作为其独立运营的全...

关键字: FPGA 人工智能 以太网

5月9日,日本半导体制造设备商Screen Holdings公布了2023财年(2023年4月-2024年3月)财报,营收、获利均创下新纪录,预计2024年度业绩有望继续创下新高。

关键字: 半导体 传感器 人工智能 电动汽车

近日路透社援引知情人士的消息称,美国商务部正考虑推动一项新的监管措施,将限制 AI 模型的出口,初步计划对 ChatGPT 等大模型采取行动。

关键字: AI

为增进大家对人工智能的认识,本文将对人工智能的应用以及人工智能和量子计算机的关系予以介绍。

关键字: 人工智能 AI 指数

为增进大家对人工智能的认识,本文将对人工智能的技术和方法,以及人工智能的趋势予以介绍。

关键字: 人工智能 AI 指数

为增进大家对人工智能的认识,本文将对人工智能对社会结构性冲击以及人们对人工智能的部分研究予以介绍。

关键字: 人工智能 AI 指数

面对人工智能(AI),乐观者纷纷用金钱投票。

关键字: AI 亚马逊 Meta 谷歌 微软

慕尼黑2024年5月9日 /美通社/ -- TÜV南德意志集团(以下简称"TÜV南德")持续保障安全、可靠及可持续发展。作为全球化的服务提供商,TÜV南德2023年全年营收达约31亿欧元,首次突破30亿欧元大关,同比增长...

关键字: BSP 可持续发展 数字化 人工智能

韩国大田2024年5月9日 /美通社/ -- 机器人平台专业公司Rainbow Robotics(首席执行官Jungho Lee)将从5月8日起开启移动双臂机器人RB-Y1的预售。

关键字: 移动 双臂机器人 ROBOTICS AI

魁北克城2024年5月9日 /美通社/ -- LeddarTech Holdings Inc. ("LeddarTech")(纳斯达克:LDTC)和Immervision Inc. 欣然共同宣布了一项合作,旨在简化...

关键字: LED ADAS 人工智能 传感器
关闭
关闭