当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 人工智能(AI)和机器学习(ML)如今已经十分常见。AI指的是机器模仿人类进行认知的概念,ML是一种用于构建AI的方法。如果AI是指计算机可以根据指令执行一组任务,那么ML就是机器从数据中摄取、

人工智能(AI)和机器学习(ML)如今已经十分常见。AI指的是机器模仿人类进行认知的概念,ML是一种用于构建AI的方法。如果AI是指计算机可以根据指令执行一组任务,那么ML就是机器从数据中摄取、解析和学习的能力,以便更精确地完成任务。

汽车、金融、政府、医疗、零售和科技等行业的大部分管理者都已经对ML和AI有了基本的了解。不过,并非每个人都是一个制定训练数据策略的专家——而这往往是实现ML高投资回报的必要的第一步。

AI系统通过实例来学习,它们拥有的高质量实例数据越多,就会学得越好。缺乏,或只有低质量的训练数据可能会生成不可靠的系统,得出错误的结论,做出糟糕的决策,无法处理现实世界的变化,并引入或延续一些如偏见等问题。

如果没有一个良好定义的策略来收集和组织你需要训练、测试和优化AI系统的数据,你将面临项目延迟、无法适当扩展以及被竞争对手超过的风险。下面是构建一个成功的训练数据策略的6个技巧。

1、制定训练数据预算

当启动一个新的ML项目时,首先要定义的是要实现的目标。这会让你知道,你的系统中需要哪种类型的数据,以及需要多少“训练项”(已分类的数据点)。

例如,计算机视觉或图像识别项目的训练项目,使用人工注释标记的图像数据,用于识别图像的内容(树、停车标志、人、车等)。此外,根据你正在构建的解决方案的类型,你的模型可能需要不断地重新培训或刷新。你的解决方案可能需要每季度、每月甚至每周进行更新。

一旦确定了训练项目和更新频率,你就可以评估关于采购数据的一些选项,并计算预算。

重要的是要清楚地了解启动该计划所需的时间和资金成本,随着时间的推移对其进行维护,并随着业务的发展对特性和功能进行改进,从而使解决方案对你的客户保持相关性和价值性。启动ML计划是一项长期投资。获得高回报需要一个长期的策略。

2、收集适当的数据

你需要的数据类型取决于你正在构建的解决方案的类型。一些数据来源包括实际使用数据、调查数据、公共数据集和合成数据。例如,一个能够理解人类语音命令的语音识别解决方案必须针对已翻译成文本的高质量语音数据(实际数据)进行培训。搜索解决方案需要由人工注释的文本数据来告诉它哪些结果是最相关的。

ML中最常用的数据类型是图像、视频、语音、音频和文本。在用于ML之前,必须对训练数据进行注释或标记,以确定它们是什么。注释可以告诉模型如何处理每段数据。例如,如果一个虚拟助理的一条训练数据是某个人的录音“多订购一点AA电池”,注释可能会告诉系统在听到“订购”时,与某个在线零售商处下个订单,在听到“AA电池”时搜索“AA电池”。

3、保证数据质量

根据任务的不同,数据注释可能是一项相对简单的活动,但是它也是重复的、耗时的,并且很难始终正确地执行。它需要人的介入。

低数据质量带来的风险很高,因为如果你根据不准确的数据训练模型,那么模型将会做错误的事情。例如,如果你训练一个自动驾驶汽车的计算机视觉系统,将人行道的图像错误地标记为街道,结果可能是灾难性的。事实上,糟糕的数据质量,是阻止ML广泛且有效使用的头号敌人。

当我们讨论数据质量时,我们谈论的是标签的准确性和一致性。准确是一个标签距离事实有多近;一致性是不同训练项目上的多个注释彼此一致的程度。

4 。注意并减少数据偏差

强调数据质量有助于公司减轻其AI项目中的偏见,这些偏见可能会隐藏起来,直到基于人工智能的解决方案进入市场。在这一点上,偏见可能很难纠正。

偏见通常来自项目开始时项目团队或培训数据中的盲点或无意识偏好。AI中的偏见可以表现为不同性别、口音或种族的语音或面部识别表现不均匀。随着AI在我们的文化中变得越来越普遍,现在是时候解决内在的偏见了。

为了避免项目级别的偏见,在建设定义目标、路线图、度量和算法团队时需要积极保证多样性。建设一个多样化的数据人才团队说起来容易做起来难,但风险很高。如果你团队的内部构成不代表潜在客户的外部构成,那么最终产品的风险只是为一小部分人工作,或者对他们有吸引力,而错过了一个面向大众市场的机会,或者更糟——偏见可能让AI具备现实世界中的歧视。

5、必要时,实施数据安全保障

并非每个数据项目都使用个人身份信息(PII)或敏感数据。对于利用这类信息的解决方案,数据安全性比以往任何时候都更重要,特别是在处理客户的PII、财务或政府记录或用户生成的内容时。越来越多的政府法规规定企业必须怎样处理客户信息。

保护这些机密数据可以保护你和你的客户的信息。对实践保持透明和道德准则,并坚持你的服务条款,这将给你带来竞争优势。不这样做会让你面临丑闻和品牌负面影响的风险。

6、选择合适的技术

你的训练数据越复杂或微妙,结果就越好。大多数组织都需要大量高质量、快速且大规模的训练数据。为了实现这一点,他们必须构建一个数据渠道,以更新模型所需的速度交付足够的数据量。这就是为什么,采用正确的数据注释技术是至关重要的。

你选择的工具必须能够为你的项目处理适当的数据类型,允许灵活的标记工作流设计,可管理单个注释器的质量和吞吐量,并提供ML辅助的数据标记来增强人工注释器的性能。

制定策略保障AI项目成功

IHS Markit最近的一项研究显示,87%的组织正在采用至少一种形式的变革性技术,比如人工智能,但只有26%的组织认为已经具备了适当的商业模式,可以从这些技术中获取全部价值。

创建一个可靠的训练数据策略是获取AI价值的第一步。包括设置预算、确定数据源、确保质量和保证安全性。清晰的数据策略还有助于提供大多数ML模型定期更新所需的稳定的数据渠道。单独的训练数据策略并不能保证AI的成功,但它可以帮助企业更好地利用AI带来的红利。

来源:搜狐

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭