当前位置:首页 > 消费电子 > 消费电子
[导读]人工智能发展带动了数据标注行业的兴起,尤其在自动驾驶领域,其广泛使用的AI深度学习算法,需要大量训练样本进行不断的算法优化,这些训练样本就是被标注过的原始数据。随着大型科技公司、银行和其他机构尝试利用人工智能来改善其产品和服务,中国对数据标注的需求正在呈现爆发式的增长。

人工智能发展带动了数据标注行业的兴起,尤其在自动驾驶领域,其广泛使用的AI深度学习算法,需要大量训练样本进行不断的算法优化,这些训练样本就是被标注过的原始数据。随着大型科技公司、银行和其他机构尝试利用人工智能来改善其产品和服务,中国对数据标注的需求正在呈现爆发式的增长。

放下农耕工具投入AI建设

“我很高兴我所从事的行业正在迅速成为中国的一个繁荣产业。”95后大学生小谭对第一财经记者表示,小谭刚毕业一年,于今年年初加入了一家海外数据标注公司,该公司今年刚宣布进入中国市场。

数据标注行业已经开始为中国一些偏远城市和农村的劳动力创造新的就业机会,他们放下农耕工具,开始投入AI发展的浪潮中。

小谭告诉记者,她的一些同事是从偏远的农村地区专门来到无锡上班的。“我们会在网上公布一些招聘信息,从其他地方赶来面试的人还是很多的。”她说,“能够接触更多的信息和技术对我们的改变还是很大的。”

现在,她和同事每天都和海量的数据打交道,具体工作包括规则的理解、员工的培训和数据的质检等等。“AI成形乃至更完善都是经过我们的操作才能够变得更智能。”

据小谭所说,普通标注员每天要处理600~700条信息,给不同的图像和语音文字进行标注。同时标注员的工作最终要质检人员进行工作审核,以达到最终客户方的要求。标注员和质检员的结构比例是1:3,也就是一个质检员需要检查3个标注员的工作。

他们所在的这家名为Appen(澳鹏)的澳大利亚数据标注企业已经在上海开设了分公司,公司还在近期启动无锡的运营中心。

澳鹏(Appen)CEO Mark Brayan告诉第一财经记者:“我们看中的是中国巨大的人工智能市场和企业对数据的需求,并且将为中国创造技术型人才的就业机会。”

澳鹏的标注对象包括语音、文字、图像和视频等领域,并将标注好的数据统一卖给分布在全球的技术、汽车和电子商务等类型的大型企业。

“无锡在人员、房价等方面有成本洼地,而且地处中国东部,能覆盖江浙沪区域,早期能与上海总部形成快速的互动,加上无锡的产业结构优势也相当明显,比如制造业和传统IT等。”澳鹏全球高级副总裁、中国总经理田小鹏告诉第一财经记者。

明年年底,无锡中心将扩张至2000人的规模,当然其中相当一部分是众包人员。此外,澳鹏还规划在中国的西南、东北等地建立第二和第三分中心,加大中国的布局力度。

创造大量零工就业岗位

数据标注公司之所以在近两年来兴起,与中国人工智能发展初期所需要的大量的数据密不可分。随着百度和阿里巴巴等中国科技巨头对人工智能的落地应用需求进一步增加,标注自动驾驶汽车拍摄素材的工作也成为数据标注公司很重要的内容之一。

数据标注人员的具体工作是,在屏幕上的每个物体周围插入一个个数码方框,并在下拉菜单上对其标注——车辆、人员、障碍物、动物。如果他们选择“车辆”,则会出现有更多选项的另一个下拉菜单——小型车、摩托车、卡车和火车等。

由于科技公司所需要的数据量巨大,数据标注公司会把很大一部分标注工作分包出去,这就创造了大量的就业。以澳鹏为例,公司全职员工仅600人,但是全球范围雇用的劳动力总人数达到了100万。“我们每个月要向50000名众包员工发放工资,创造了很多的零工就业机会。”Brayan告诉第一财经记者。

既推动了AI发展,又促进了就业,数据标注被套上了新时代“富士康”的光环。比如在距离贵阳市中心50公里的百鸟河数字小镇,就有一个规模500人的“数据工场”,500名标注员中,近一半是附近一家扶贫高职的学生。据了解,他们一个月能挣到1500元,经济上足以自立,还能补贴家用,相比餐厅辛苦端盘子或者送外卖这类兼职工作,数据标注相对轻松且体面。

小到用数据爬虫抓取互联网现存数据,并进行拉框,大到根据用户定制化的硬件以及场景需求,去完成数据的采集与多维度数据标注。数据标注行业,如今正朝着专业化、细分化、场景化的方向不断演进。而在这一过程中,一批诸如百度数据众包、云测数据等企业和团队也应运而生。

未来靠人还是靠机器

海外的数据标注市场正在趋向成熟,类似澳鹏这样的企业开始收购中小微数据平台,将自己的议价能力提高到新的水平。

今年3月,澳鹏以高达3亿美元的价格收购了另一家数据标注公司Figure Eight。Brayan认为,其技术可以和Figuer Eight互补。不过也有很多业内人士对此表示出了质疑,认为此举是将该领域带向“垄断”的局面。

与此同时,中国团队已经开发出一套人工智能的数据标注系统。该软件可将标注的人工工作总量降低,为ADAS及自动驾驶系统开发提供高质量、低成本的数据支撑。

据介绍,为了加快ADAS、智能网联、自动驾驶等相关技术发展进程,清华大学苏州汽车研究院经过近两年的技术研发与数据验证,于2019年9月成功推出了国内首个基于大数据自动标注软件的服务平台,并已与上汽、一汽、陕汽重卡等企业达成合作。

基于深度学习、集成学习、传感器融合等技术,该自动标注软件可根据客户需要提供图片、视频等多种形式的数据采集和标注服务。软件还集成方便易用的手工修改和标注工具,进一步提高工作效率。

与其配套的标注管理服务平台可以在线进行任务分发、管理、验收、修改、存档等全工作流程管理,标注人员端和管理人员端可以实现数据库共享与更好的分工协作。

不过,这个行业短时间内仍将属于劳动密集型行业。“我们认为数据标注的很多工作还是要依靠人类标注员,因为机器的能力目前可能还达不到所需的精度。我们也注意到机器在数据标注方面的发展潜力,但至少在今天这并不会对我们的业务造成影响。”Brayan说。

目前,许多数据标注公司仍然主要集中在北京和上海等大城市,但技术含量较低的标注业务正在将部分新技术资金分流到较小的城镇,为当地提供农业和制造业之外的就业机会。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

3月29日消息,根据国外媒体报道,2024年2月,韩国半导体产业迎来了显著的增长,其产量增幅达到了14年来的最高水平,同比增长65.3%。

关键字: AI ChatGPT 人工智能

随着科技日新月异的进步,语音识别技术已成为人工智能领域的一项核心突破。这项技术旨在模拟人类听觉系统,通过复杂算法和模式识别手段将连续或离散的语音信号转换为可理解的文本或指令信息。本文深入探讨了语音识别技术在多个领域的广泛...

关键字: 语音识别 人工智能

随着人工智能和信息技术的飞速发展,语音识别技术已经从实验室走向了现实生活中的各个角落,成为人机交互领域的重要组成部分。语音识别产品不仅丰富了我们的日常生活,也正在深刻地改变着众多行业的工作模式和服务形态。

关键字: 语音识别 人工智能

在当今大数据和人工智能时代,机器学习作为核心的技术驱动力,正以前所未有的速度改变着我们的生活和工作方式。从基础的数据分析到复杂的决策支持系统,机器学习模型的成功构建和应用离不开一套严谨的流程。本文将详尽阐述机器学习过程中...

关键字: 机器学习 人工智能

机器学习作为人工智能领域的核心技术,其应用日益广泛,从搜索引擎优化到医疗诊断,从金融风控到自动驾驶等众多领域均发挥着重要作用。深入理解并掌握机器学习的关键步骤是成功构建高效模型和解决方案的基础。本文将详细阐述机器学习的主...

关键字: 机器学习 人工智能

是德科技(Keysight Technologies, Inc.)现已开启与全新 NVIDIA 6G 研究云平台的合作。该平台包括 NVIDIA Aerial Omniverse 数字孪生,这是一个开放、灵活的网络仿真资...

关键字: 6G 人工智能 RAN

纵观人类近现代史,每一次工业革命都是将战略性科技转化为生产力,从而创造巨大的新增财富和全面提升国家竞争力的过程;而且一个国家在工业革命面前的“沉与浮”,则取决于一个国家对这些战略性科技和产业化能力的把控。从被称为蒸汽机时...

关键字: 人工智能 算力 大模型

Arm Neoverse 旨在为从云到边缘的全场景基础设施用例提供高性能和出色能效。针对需要更高性能的工作负载和用例,Arm 推出了 Neoverse V 系列。其中,Neoverse V2 核心已被行业先行者广泛部署于...

关键字: 云计算 人工智能 CPU

本文中,小编将对人工智能AI予以介绍,如果你想对它的详细情况有所认识,或者想要增进对它的了解程度,不妨请看以下内容哦。

关键字: 人工智能 AI

在这篇文章中,小编将为大家带来人工智能AI的相关报道。如果你对本文即将要讲解的内容存在一定兴趣,不妨继续往下阅读哦。

关键字: 人工智能 AI
关闭
关闭