当前位置:首页 > 物联网 > 智能应用
[导读] 大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据这个概念听说过挺久的了,但一直没有系统了解,由于工作需要,想做点深入了解,于是翻了关于大数据的经典之作《大数据时代》,猛然发现这本书出版于2012年,已是七年前的著作了。

 大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据这个概念听说过挺久的了,但一直没有系统了解,由于工作需要,想做点深入了解,于是翻了关于大数据的经典之作《大数据时代》,猛然发现这本书出版于2012年,已是七年前的著作了。

与大数据对应的是小数据,在小数据时代,由于技术条件的限制,人类无法获取大量的数据,即便获取了,也无法快速处理那些数据,为了解决这一难题,聪明的人类发明了随机采样法。在随机采样中,由于一切都是随机的,它本身就综合了各种因素,又排除了人为因素,所以它的结论也大致满足需求。但是在大数据时代,样本=总体。要所有数据,不管这数据是对的还是错的,有意的或无意的,有用的还是无用的,全要。一个最简单的例子是翻译软件的发展,在最开始的版本中,翻译学家想要把一切语言规则都内置到软件中,他们认为这样软件就会实现自动翻译,结果他们发现自己得到了一坨屎。

《大数据时代》这部书算是易懂的,因为它是从宏观的角度讲了大数据时代带来的思维变革,还有很多丰富详实的案例,但并不涉及数据处理细节那些琐碎的东西,所以对于非专业人士来讲读起来并不困难甚至可以说是有趣的。当下的翻译软件则不然,它的“师傅们”不再是一堆语言规则,而是全世界人民!首先,开发人员先把馆藏双语对照的书籍植入计算机中,其次每个人每天在网络上发的双语对话都会被计算机记录并学习,目前的计算机已经可以实现深度学习,即不要内置规则,它根据大量的输入自己学习规则。

在这个简单的例子中已经彰显出大数据的三个特点:

更多:不是随机样本,而是全部数据;

更杂:不是精确性,而是混杂性;

更好:不是因果关系,而是相关关系。

数据主义即只认数据,唯数据是从,极端情况就类似于电影《少数派报告》所展现的场景了,在电影里有三个人具备预知能力,警方用他们的超能力实施罪前打击,当一个人想要犯罪还没有犯罪的当口抓住他,而在数据时代,当一个人奉数据为圭臬时,他可能六亲不认只认数据,当数据预测到某人要犯罪时,是直接抓他坐牢还是坐等他犯罪?这是个问题。

首先第一点“要全部数据”很好理解,本来就是大数据嘛,其次第二点“不是精确性而是混杂性”这点也容易理解,这个世界本来就是混乱的,想要秩序不过是人类的一厢情愿而已,从混乱的世界中得到的数据自然也是混乱的、不精确的,但这样的数据才能更真实地反映世界的本来面目,何必追求精确呢?在翻译软件的例子中,当计算机去识别网络上的语句时,它是无法保证每个人写的都是正确的,但正是这种多样性的存在才更能赋予计算机翻译的智能性。最不好理解也最有争议的就是第三点,用相关关系替代因果关系。相关关系顾名思义,当一种现象发生变化时,另一种现象随之改变,这说明两种现象是相关的,但这里并不强调二者之间有什么逻辑上的因果性,因果关系则不然。

在心理学上有个第三变量问题,说当两个现象具有相关关系时,人们往往会把它误当作因果关系,而忽略第三变量。一个典型的例子是说私立学校和公立学校教育水平问题,一般来讲,人们只看到私立学校教出来的学生更优秀就认为他们的教育水平更好,而往往忽略上私立学校的孩子家庭条件更好,父母的受教育程度更好,而这才是影响孩子学习成绩的关键因素。

从大数据的角度来讲,取消因果关系是明智的,因为当数据庞大了以后,想要分析因果关系势必登天,因为它牵扯的因素太多了,根本无法分析,更重要的是,人们需要因果关系吗?人们只需要知道这件事发生了以后接下来会发生什么就足够了,至于为什么会发生,谁关心呢?上帝吗?关心这个问题的大概都是哲学家。哲学家们会担心,没有了因果关系,人在计算机面前就会像傻子一样任人摆布,这是一种堕落。但不管如何,大数据时代的特点就是这样,接受它你就迈入了大数据时代。在这样的背景下,数据开始值钱了,但也不是说谁有数据谁就能雄霸天下。有的公司空有一堆数据但不会处理,有的公司知道怎么处理数据但却缺少创新思维,不知道拿来何用。最好的是那些既有数据又知道怎么处理数据还具备创新思维的公司,但这样的公司又极易沦为数据主义。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

北京——2024年4月18日 西门子中国和亚马逊云科技双方高层在西门子中国北京总部会晤,双方宣布签署战略合作协议,共同成立“联合创新团队”。基于亚马逊云科技在生成式AI领域的领先技术和服务,并结合西门子在工业领域的深厚积...

关键字: 生成式AI 机器学习 大数据

赛诺贝斯开创性"三位一体"商业模式:领跑MarTech行业的创新引擎

关键字: 数字化 大数据 大模型 生成式AI

随着大数据时代的到来和计算能力的不断提升,机器学习作为人工智能领域的重要分支,正逐渐改变我们的生活方式和工作模式。机器学习涉及多个学科的理论和技术,其应用广泛且深入,为各个领域的发展带来了前所未有的机遇。那么,机器学习具...

关键字: 大数据 机器学习 人工智能

随着大数据时代的来临,数据的价值日益凸显,如何从海量数据中提取有用信息并转化为实际价值,成为各行各业关注的焦点。机器学习和数据挖掘作为两大核心技术,在数据分析和处理中发挥着越来越重要的作用。本文将通过几个典型的应用案例,...

关键字: 大数据 机器学习 数据挖掘

随着互联网的迅猛发展,百度、阿里巴巴、腾讯等互联网巨头逐渐崭露头角,成为了行业的领军者。这些公司在云计算、大数据、人工智能等领域积累了丰富的经验和技术实力,为开发者提供了丰富的服务和工具。在这样的背景下,BAT模块应运而...

关键字: 互联网 云计算 大数据

随着大数据时代的来临,机器学习作为人工智能的核心技术之一,已经深入到各个领域并展现出强大的潜力和价值。机器学习通过对大量数据的分析、学习和预测,为各个行业提供了前所未有的机遇。本文将详细介绍机器学习的常见任务,并探讨这些...

关键字: 机器学习 大数据

人脸识别技术作为一种高效、准确的身份识别方式,近年来得到了广泛的应用和发展。随着人工智能、大数据等技术的不断发展,人脸识别技术的准确度和可靠性得到了显著提高。本文将探讨人脸识别技术的发展现状和未来趋势。

关键字: 人脸识别 人工智能 大数据

人工智能是“十四五”规划明确优先发展的前沿科技领域之一,如何看待未来我国人工智能领域的发展前景?目前,我国机器人基础研究状况如何?

关键字: 人工智能 物联网 大数据

北京——2024年1月23日 行业数字化服务商华讯网络系统有限公司(简称华讯)充分利用亚马逊云科技丰富的数据和安全服务以及解决方案,结合自身在安全领域的技术优势和深厚沉淀,为企业提供涵盖安全事件响应、云原生安全大数据平台...

关键字: 大数据 数据分析 互联网

2023年,重庆云谷·永川大数据产业园通过大力发展科技影视、自动驾驶和服务外包产业,已形成科技影视、自动驾驶、服务外包“三足鼎立”之势,释放出高质量发展强劲动力。

关键字: AI 科技 大数据
关闭
关闭