当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 数据是AI训练的核心,这一点已经被确认再确认了。虽然数据驱动不是AI算法训练的唯一途径,但在产业中已经出现了很明显的趋势,那些数据丰富廉价的领域,就是会更容易孕育出AI技术。像是汉英之间的机器翻

数据是AI训练的核心,这一点已经被确认再确认了。虽然数据驱动不是AI算法训练的唯一途径,但在产业中已经出现了很明显的趋势,那些数据丰富廉价的领域,就是会更容易孕育出AI技术。像是汉英之间的机器翻译能力会大大强于小语种间的机器翻译,数据收集更容易的人脸识别应用率也高于虹膜、眼纹等等生物特征的智能识别。

可以说数据的缺乏或昂贵,往往是阻碍AI发展的直接缘由。

当然面对这种情况,也出现了相应的技术解决方案——数据增强技术。

数据的有丝分裂,是怎样进行的?

所谓数据增强技术,可以理解为数据的繁殖皿,可以让数据进行“有丝分裂”,增强样本扩大数据集。

以图像数据为例,当图像数据不足时,可以对图像进行一些轻微的改变,例如裁剪、旋转、镜像反转、轻微的扭曲、增加噪点、增加遮挡物等等。对于人类来说,虽然可以一眼识破两者之间没有区别。但对于AI来说,即使几个像素点的变动,也是全新的数据样本。

而应用于文本数据,则有互译和词向量替换两种方法。通过机器翻译,将一句话从中文翻译成英文,再由英文翻译成中文,就可以实现语序、同义词等等的调整替换,得到语料乘二的效果。以及通过自然语言生成技术,将一句话中的不同对象进行划分并替换生成新的句子。

这些数据增强技术也开始通过深度学习的加持逐渐提升效率,例如去年4月谷歌就推出了一项名为AutoAugment的技术,这一模式设计了一个自动搜索空间,利用搜索算法来确定适合数据集的图像增强策略(例如上述的平移、缩放等等),制定执行的顺序并且自动执行。

例如将一个动物照片数据集输入给AutoAugment,AutoAugment通过计算会确定出先平移再剪裁是让AI对于数据“陌生感”最大化的解决方案,然后开始自动执行。

为什么数据增强没能普及?

AI企业的成本怪圈

看到了这些解决方案,大家是不是有种“天亮了”感觉?既然数据可以“自我繁殖”,那么数据的累积和采集就再也不是AI发展的阻碍。小语种的翻译、冷门植物动物的识别都可以快速AI化,巨头移动互联网企业霸权下的数据垄断也即将被破解……等等,如果数据增强技术有如此之强的能力,这项技术至少应该像BERT一样在学术界和产业界引起极高的关注,并且迅速形成产业链。

可实际上今天我们仍然能看到大量AI企业为如何获取数据而忧虑。

为什么数据增强技术没能彻底解决他们的问题呢?这背后其实是老生常谈的成本问题。

数据增强技术从来都不是免费利用的,很多时候AI技术接口本身就需要按调用次数收费,更别提背后的计算成本和时间成本了。

就拿文本数据经常利用的机器翻译来说,百度、搜狗、有道等等提供的机器翻译服务对于普通用户来说虽然是免费的,但是超过了一定流量值之后也要进行收费。数据增强技术显然属于收费范畴之中。曾有知乎用户表示,几款主流的机器翻译软件的收费标准大概在48元-60元/百万字符不等。对于企业来说,这也是一项不小的花销。

而应用于图片数据增强的AutoAugment,更是一种十分昂贵的算法。应用时要对15000个模型进行收敛,这对算力的消耗是巨大的。如果以CIFAR-10这样的对象作为数据集,需要利用英伟达Tesla P100 GPU计算几千个小时,以谷歌云的收费标准需要花费7500美元。

换句话说,如果数据增强的收费成本超过了人工去拍照收集,企业自然会去选择更划算的方法。实际上大多数时候企业既不能覆盖人工获取数据的成本,也不能覆盖数据增强技术应用的成本。

当AI走进性价比时代

这一现象提醒了我们,AI正在进入一个“性价比”时代。

资本对于AI一掷千金的岁月已经过去,随着巨头的AI技术逐渐产业化,其他AI企业已经无法向以前那样不计成本的投入。同时随着产业链发展的越来越完善,AI企业发展过程中的“计费标准”也逐渐清晰起来。在巨头占据市场的情况下,AI企业很容易看到在未来业务的发展中究竟经历着哪些成本上的商业风险。

这时,帮助降低数据增强这一类技术的应用成本就成了一件很重要的事。

例如最近伯克利人工智能研究院就推出了一种群体增强技术,通过数据结组方法,更高效地找到数据增强策略。相比单纯的应用AutoAugment,可以提升近千倍的效率。让很多无法负担高昂计算成本的企业甚至个人都能利用起数据增强技术。

而这种旨在降低AI研发成本的技术,或许未来会成为典型。其中的原因在于,谷歌这样的巨头企业,以及OpenAI这样的研究机构,本身拥有雄厚的资本和资源支持,导致他们在研发技术时,很难会考虑技术的“性价比”。何况很多时候这些企业本身也是算力资源的掌握着,他们在某种程度上掌握着技术与算力之间的定价权。从谷歌的角度来说,他们当然希望企业在研发AI时需要消耗尽可能多的算力资源,毕竟从算法技术到云计算资源都是他们的一套买卖。

如此以往下去,如果技术的计算标准和计算资源都被垄断,AI企业在发展时会遇到一条明显的阈值。一旦超过这一阈值,AI企业就会很难跨越成本,于是直接被拦在门外。甚至科技巨头可以利用这种方式对于产业进行间接的操控,举例来讲,如果谷歌想保护自己在小语种机器翻译上的优势,只需要提高该语种机器翻译应用费用,就能通过加大企业获取语料数据成本的方式,阻碍他们进行相关研究。

在这种情况下,打破垄断、重塑定价权,让AI研发更具性价比,或许能够打造出一条独辟蹊径的道路。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭