当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 从数据稀缺到现在有大量的数据,近年来,可用的数据量呈指数级增长,大数据变得无处不在。这是由于数据记录设备数量的巨大增长,以及这些设备之间通过物联网连接。似乎每个人都有收集、分析大数据的力量。

从数据稀缺到现在有大量的数据,近年来,可用的数据量呈指数级增长,大数据变得无处不在。这是由于数据记录设备数量的巨大增长,以及这些设备之间通过物联网连接。似乎每个人都有收集、分析大数据的力量。

但是,大数据真的是万能的吗?毫无疑问,大数据已经在某些领域产生了至关重要的影响。例如,几乎每一个成功的人工智能解决方案都涉及大数据处理问题。

首先要注意的是,尽管AI目前非常擅长在大型数据集中查找模式和关系,但它仍然不是很智能。计算数字可以有效地识别并发现数据中的细微模式,但不能直接告诉我们这些相关关系中哪些实际上有意义。

相关性和因果关系

我们都知道“相关性并不意味着因果关系。“然而,人类的大脑天生就会寻找规律,当我们看到曲线倾斜在一起,数据中出现明显的规律时,我们的大脑就会自动给出规律。”

然而,从统计数据来看,我们仍然无法实现这一飞跃。《虚假相关性》(false)一书的作者Tyler Vigen在自己的网站上对此进行了调侃,还有很多例子比如展示冰淇淋是如何明显地导致许多坏事的,从森林大火到鲨鱼袭击和脊髓灰质炎爆发。

看看这些情节,人们可能会争辩说,我们很可能早就应该禁止冰淇淋了。 而且,实际上,在1940年代的小儿麻痹症例子中,公共卫生专家建议人们停止吃冰淇淋作为“反政治饮食”的一部分。幸运的是,他们最终意识到小儿麻痹症暴发与冰淇淋消费之间的相关性是“完全是由于小儿麻痹症的爆发在夏季最为普遍”。

在统计中,虚假关系或虚假相关性是一种数学关系,其中两个或多个事件或变量相关联,但由于某种偶然的或某些第三个未见因素的存在而因果相关(称为“常见响应”变量”、“混杂因素”或“潜伏变量”)。这样的“潜伏变量”的例子可以是冰淇淋销量与鲨鱼袭击之间的相关性(虽然冰淇淋销量的增长不会导致鲨鱼袭击人们)。但是,这两个数字之间有一个共同的环节,即温度。较高的温度导致更多的人购买冰淇淋以及更多的人去游泳。因此,这个“潜变量”确实是表观相关性的原因。幸运的是,我们已经学会将因果关系与因果关系分开。而且,在炎热的夏日,我们仍然可以享受冰淇淋,而不必担心小儿麻痹症爆发和鲨鱼袭击!

相关性的力量和局限性

有了足够的数据,将会发现计算能力和统计算法的模式。但并不是所有的模式都有意义,因为虚假模式的数量很容易超过有意义的模式。将大数据与算法结合起来,如果能正确地应用于解决问题,将是一个非常有用的工具。然而,没有科学家会认为你可以通过单独处理数据来解决这个问题,无论统计分析是多么强大,您应该始终基于对要解决的问题的基本理解来进行分析。

数据科学是科学的终结吗?

2008年6月,《连线》(Wired)杂志前主编C. Anderson写了一篇颇具煽动性的文章,题为《理论的终结:数据洪流使科学方法过时》(The End of Theory: The Data Makes The Scientific Method Obsolete)。“相关性取代因果关系,即使没有连贯的模型和统一的理论,科学也能进步。”

这种方法的强度和通用性依赖于数据量:数据越多,基于计算发现的相关性的方法就越强大和有效。我们可以简单地把数字输入计算机,让统计算法自动发现有趣的模式和见解。

但是,这种简化的分析方法也存在一些潜在的陷阱,可以通过John Poppelaars在博客上找到的示例很好地说明 :

假设我们要为某些变量Y创建一个预测模型。例如公司的股价、在线广告的点击率或下周的天气。接下来,我们收集所有可以使用的数据,并将其放入统计过程中,以找到Y的最佳预测模型。常见的过程是首先使用所有变量对模型进行估计,筛选出不重要的变量,然后使用所选的变量子集重新估算模型,然后重复此过程,直到找到重要的模型为止。

但是,Anderson提出的分析方法存在一些严重的缺陷。我选择了一个实例,从0到1的均匀分布中抽取100个样本,为Y创建了一组数据点,所以它是随机噪声。接下来,我通过从0到1之间的均匀分布中抽取100个样本,创建了一组50个解释变量X(I)。因此,所有50个解释变量也是随机噪声。我使用所有的X(I)变量来预测y,估计一个线性回归模型。因为没有任何相关的东西(所有的均布和自变量),所以期望R²(0),但实际上不是。结果是0。5。对于基于随机噪声的回归来说还不错!幸运的是,这个模型并不重要。逐步剔除不显著的变量,重新估计模型。重复这个过程,直到找到一个重要的模型。经过几个步骤后,发现一个显著性模型,调整后的R平方为0.4,7个变量的显著性水平至少为99%。再次,我们是在回归随机噪声,它绝对没有关系,但我们仍然找到一个有7个重要参数的显著模型。如果我们只是将数据输入统计算法来寻找模式,就会出现这种情况。

数据集越大,噪声越强

最近的研究证明,随着数据集的增长,它们必定包含任意相关性。这些相关性只是由于数据的大小而出现,这表明,许多相关性都是虚假的。不幸的是,很多信息往往表面表现得很少。

这是处理多维数据的应用程序中的主要问题。举例来说,假设您从一家工厂的数千个传感器中收集传感器数据,然后挖掘这些数据以获取模式以优化性能。在这种情况下,您很容易被数据表现的表象所迷惑,而不是真正的运营绩效指标。无论从财务上还是在工厂的安全运行方面,这都可能是一个坏消息。

添加数据和添加信息

作为数据科学家,我们可能经常会说,改善人工智能模型的最佳解决方案是“添加更多数据”。然而,仅仅“添加更多数据”就能提高模型性能吗?不是这样的。我们应该关注的是“添加更多的信息”。“添加数据”和“添加信息”之间的区别是至关重要的:添加更多的数据并不等于添加更多的信息(至少是有用和正确的信息)。相反,由于盲目地添加越来越多的数据,我们有可能添加包含错误信息的数据,这些错误信息会相应地降低模型的性能。随着数据的大量访问以及处理数据的计算能力,考虑这一点变得越来越重要。

结论

那么,上述挑战是否应该阻止您采用以数据为依据的决策? 不,数据驱动的决策将继续存在。随着我们获得更多有关如何最佳利用数据和信息以提高绩效的知识,这些将变得越来越有价值。

但是要意识到,要使方案成功,不仅需要硬件和大量数据,大数据和计算能力也是重要的组成部分。而且,您应该了解连接数据的基本机制。数据不能说明一切,是人类给数字赋予了含义。数据的数量、种类是无法更改的。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

特朗普集团近日取消了其新推出的T1智能手机“将在美国制造”的宣传标语,此举源于外界对这款手机能否以当前定价在美国本土生产的质疑。

关键字: 特朗普 苹果 AI

美国总统特朗普在公开场合表示,他已要求苹果公司CEO蒂姆·库克停止在印度建厂,矛头直指该公司生产多元化的计划。

关键字: 特朗普 苹果 AI

4月10日消息,据媒体报道,美国总统特朗普宣布,美国对部分贸易伙伴暂停90天执行新关税政策,同时对中国的关税提高到125%,该消息公布后苹果股价飙升了15%。这次反弹使苹果市值增加了4000多亿美元,目前苹果市值接近3万...

关键字: 特朗普 AI 人工智能 特斯拉

3月25日消息,据报道,当地时间3月20日,美国总统特朗普在社交媒体平台“真实社交”上发文写道:“那些被抓到破坏特斯拉的人,将有很大可能被判入狱长达20年,这包括资助(破坏特斯拉汽车)者,我们正在寻找你。”

关键字: 特朗普 AI 人工智能 特斯拉

1月22日消息,刚刚,新任美国总统特朗普放出重磅消息,将全力支持美国AI发展。

关键字: 特朗普 AI 人工智能

特朗普先生有两件事一定会载入史册,一个是筑墙,一个是挖坑。在美墨边境筑墙的口号确保边境安全,降低因非法移民引起的犯罪率过高问题;在中美科技产业之间挖坑的口号也是安全,美国企业不得使用对美国国家安全构成威胁的电信设备,总统...

关键字: 特朗普 孤立主义 科技产业

据路透社1月17日消息显示,知情人士透露,特朗普已通知英特尔、铠侠在内的几家华为供应商,将要撤销其对华为的出货的部分许可证,同时将拒绝其他数十个向华为供货的申请。据透露,共有4家公司的8份许可被撤销。另外,相关公司收到撤...

关键字: 华为 芯片 特朗普

曾在2018年时被美国总统特朗普称作“世界第八奇迹”的富士康集团在美国威斯康星州投资建设的LCD显示屏工厂项目,如今却因为富士康将项目大幅缩水并拒绝签订新的合同而陷入了僵局。这也导致富士康无法从当地政府那里获得约40亿美...

关键字: 特朗普 富士康

今年5月,因自己发布的推文被贴上“无确凿依据”标签而与推特发生激烈争执后,美国总统特朗普签署了一项行政令,下令要求重审《通信规范法》第230条。

关键字: 谷歌 facebook 特朗普

众所周知,寄往白宫的所有邮件在到达白宫之前都会在他地进行分类和筛选。9月19日,根据美国相关执法官员的通报,本周早些时候,执法人员截获了一个寄给特朗普总统的包裹,该包裹内包含蓖麻毒蛋白。

关键字: 美国 白宫 特朗普
关闭