当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 数据是AI训练的核心,这一点已经被确认再确认了。虽然数据驱动不是AI算法训练的唯一途径,但在产业中已经出现了很明显的趋势,那些数据丰富廉价的领域,就是会更容易孕育出AI技术。像是汉英之间的机器翻

数据是AI训练的核心,这一点已经被确认再确认了。虽然数据驱动不是AI算法训练的唯一途径,但在产业中已经出现了很明显的趋势,那些数据丰富廉价的领域,就是会更容易孕育出AI技术。像是汉英之间的机器翻译能力会大大强于小语种间的机器翻译,数据收集更容易的人脸识别应用率也高于虹膜、眼纹等等生物特征的智能识别。

可以说数据的缺乏或昂贵,往往是阻碍AI发展的直接缘由。

当然面对这种情况,也出现了相应的技术解决方案——数据增强技术。

数据的有丝分裂,是怎样进行的?

所谓数据增强技术,可以理解为数据的繁殖皿,可以让数据进行“有丝分裂”,增强样本扩大数据集。

以图像数据为例,当图像数据不足时,可以对图像进行一些轻微的改变,例如裁剪、旋转、镜像反转、轻微的扭曲、增加噪点、增加遮挡物等等。对于人类来说,虽然可以一眼识破两者之间没有区别。但对于AI来说,即使几个像素点的变动,也是全新的数据样本。

而应用于文本数据,则有互译和词向量替换两种方法。通过机器翻译,将一句话从中文翻译成英文,再由英文翻译成中文,就可以实现语序、同义词等等的调整替换,得到语料乘二的效果。以及通过自然语言生成技术,将一句话中的不同对象进行划分并替换生成新的句子。

这些数据增强技术也开始通过深度学习的加持逐渐提升效率,例如去年4月谷歌就推出了一项名为AutoAugment的技术,这一模式设计了一个自动搜索空间,利用搜索算法来确定适合数据集的图像增强策略(例如上述的平移、缩放等等),制定执行的顺序并且自动执行。

例如将一个动物照片数据集输入给AutoAugment,AutoAugment通过计算会确定出先平移再剪裁是让AI对于数据“陌生感”最大化的解决方案,然后开始自动执行。

为什么数据增强没能普及?

AI企业的成本怪圈

看到了这些解决方案,大家是不是有种“天亮了”感觉?既然数据可以“自我繁殖”,那么数据的累积和采集就再也不是AI发展的阻碍。小语种的翻译、冷门植物动物的识别都可以快速AI化,巨头移动互联网企业霸权下的数据垄断也即将被破解……等等,如果数据增强技术有如此之强的能力,这项技术至少应该像BERT一样在学术界和产业界引起极高的关注,并且迅速形成产业链。

可实际上今天我们仍然能看到大量AI企业为如何获取数据而忧虑。

为什么数据增强技术没能彻底解决他们的问题呢?这背后其实是老生常谈的成本问题。

数据增强技术从来都不是免费利用的,很多时候AI技术接口本身就需要按调用次数收费,更别提背后的计算成本和时间成本了。

就拿文本数据经常利用的机器翻译来说,百度、搜狗、有道等等提供的机器翻译服务对于普通用户来说虽然是免费的,但是超过了一定流量值之后也要进行收费。数据增强技术显然属于收费范畴之中。曾有知乎用户表示,几款主流的机器翻译软件的收费标准大概在48元-60元/百万字符不等。对于企业来说,这也是一项不小的花销。

而应用于图片数据增强的AutoAugment,更是一种十分昂贵的算法。应用时要对15000个模型进行收敛,这对算力的消耗是巨大的。如果以CIFAR-10这样的对象作为数据集,需要利用英伟达Tesla P100 GPU计算几千个小时,以谷歌云的收费标准需要花费7500美元。

换句话说,如果数据增强的收费成本超过了人工去拍照收集,企业自然会去选择更划算的方法。实际上大多数时候企业既不能覆盖人工获取数据的成本,也不能覆盖数据增强技术应用的成本。

当AI走进性价比时代

这一现象提醒了我们,AI正在进入一个“性价比”时代。

资本对于AI一掷千金的岁月已经过去,随着巨头的AI技术逐渐产业化,其他AI企业已经无法向以前那样不计成本的投入。同时随着产业链发展的越来越完善,AI企业发展过程中的“计费标准”也逐渐清晰起来。在巨头占据市场的情况下,AI企业很容易看到在未来业务的发展中究竟经历着哪些成本上的商业风险。

这时,帮助降低数据增强这一类技术的应用成本就成了一件很重要的事。

例如最近伯克利人工智能研究院就推出了一种群体增强技术,通过数据结组方法,更高效地找到数据增强策略。相比单纯的应用AutoAugment,可以提升近千倍的效率。让很多无法负担高昂计算成本的企业甚至个人都能利用起数据增强技术。

而这种旨在降低AI研发成本的技术,或许未来会成为典型。其中的原因在于,谷歌这样的巨头企业,以及OpenAI这样的研究机构,本身拥有雄厚的资本和资源支持,导致他们在研发技术时,很难会考虑技术的“性价比”。何况很多时候这些企业本身也是算力资源的掌握着,他们在某种程度上掌握着技术与算力之间的定价权。从谷歌的角度来说,他们当然希望企业在研发AI时需要消耗尽可能多的算力资源,毕竟从算法技术到云计算资源都是他们的一套买卖。

如此以往下去,如果技术的计算标准和计算资源都被垄断,AI企业在发展时会遇到一条明显的阈值。一旦超过这一阈值,AI企业就会很难跨越成本,于是直接被拦在门外。甚至科技巨头可以利用这种方式对于产业进行间接的操控,举例来讲,如果谷歌想保护自己在小语种机器翻译上的优势,只需要提高该语种机器翻译应用费用,就能通过加大企业获取语料数据成本的方式,阻碍他们进行相关研究。

在这种情况下,打破垄断、重塑定价权,让AI研发更具性价比,或许能够打造出一条独辟蹊径的道路。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除( 邮箱:macysun@21ic.com )。
换一批
延伸阅读

前 Amazon Robotics 高管出任全球生产战略部负责人,助力公司扩张 休斯敦, April 01, 2026 (GLOBE NEWSWIRE) -- 具身 AI 领域新一代领军企业 Persona AI 今...

关键字: VI RS AN AI

可持续发展与企业责任实践再获国际资本市场认可 香港2026年3月31日 /美通社/ -- 全球领先的互联网社区创建者 - 网龙网络控股有限公司 ("网龙"...

关键字: MSC AI 可持续发展 网络游戏

2026 年 3 月 31 日,华为投资控股有限公司正式发布 2025 年年度报告。

关键字: 华为 2025年年报 AI 云计算

当地时间 3 月 30 日,专注在轨 AI 数据中心建设的美国初创企业 Starcloud 宣布完成 1.7 亿美元融资,投后估值 11 亿美元,正式跻身独角兽行列。

关键字: 太空数据中心 Starcloud AI 数据中心

安森美将上海设立为大中华区总部,并公布任命中国区总经理的计划

关键字: 氮化镓 人工智能 数据中心

加利福尼亚州库比蒂诺2026年3月27日 /美通社/ -- 全球领先的AI驱动型网络安全解决方案提供商Cyble宣布,在两项业内最具声望的奖项评选中荣获重要表彰。 该公司荣获...

关键字: 信息安全 网络安全 BLE AI

深圳2026年3月27日 /美通社/ -- 2026年3月27日,CFM | MemoryS 2026在深圳盛大启幕,全球存储产业链精英齐聚,共探AI时代存储产业的变革与未来。江波龙董事长、总经理蔡华波先生受邀出席并发表...

关键字: MEMORY AI SSD 集成

北京2026年3月29日 /美通社/ -- 3月26日至29日,中国医学装备大会暨医学装备展览会(CCDLM)在重庆悦来国际会议中心举行。作为体外诊断领域的代表企业之一,万泰生物携"智慧健康生态展"亮...

关键字: CCD LM 人工智能 自动化

交易总额最高可达约27.5亿美元,包括1.15亿美元首付款。 这项由人工智能驱动的合作包含一项全球独家许可,涵盖涉及多个治疗领域的系列项目。 上海2026年3月30日 /美通社/ -- 由生成式人工智能(...

关键字: 人工智能 ARMA 自动化技术 SI

香港2026年3月30日 /美通社/ -- 诺亚控股有限公司("NOAH"或"公司")(纽约证券交易所代码:NOAH;香港交易所代码:6686)与旗下全球资产配置平台 Olive...

关键字: AI OUTLOOK MANAGEMENT SE
关闭