当前位置:首页 > 物联网 > 《物联网技术》杂志
[导读]摘要:当大数据分析逐渐成为主流时,它将会变得和其他早期的技术一样普遍,大数据分析也会逐步成为一种日常工具。文中分析了大数据分析面临的主要挑战,以及数据从累积到分析的分析学体系,同时分析了大数据分析市场的未来趋势,给出了大数据分析的关键还在于人为操作的结论。

大数据分析面临的主要挑战

大数据是一项艰巨的挑战。众所周知,当今时代,数据正以爆炸式的速度增长,世界上总共有多少数据,没人能给出确切的答案。

谷歌前首席执行官埃里克•施密特称,“我们现在创造出来的信息量相当于过去整个人类历史创造出来的文明。从数字时代开始到2003年,我们只创造出5艾字节的信息。但是,我们现在每两天就能创造出5艾字节的信息,而且信息增长的速度还在不断加快。”

这个数据似乎有些言过其实。RJMetrics首席执行官RobertJ.Moore,在最近的TEDx演讲栏目中提到,2002年,只有23艾字节的信息被记录和复制,但我们现在每七天就能更新和转移这么多数据。

Gartner称,企业数据在未来5年内将增长650%。IDC的说法是,全世界的信息在一年半内即可翻一倍。IDC称,2011年,我们创造了1.8泽字节(1.8兆GBs)的信息,若要将这些信息储存在电子设备中,则需要575亿台规格为32G的iPad,将如此多的iPad连接起来,长度是万里长城的两倍。

数据的创造脚步势必加快,尤其是当今机器对机器通讯技术的成本降低,人们获取技术更为便捷。试想一下,所有传感器网络、防盗警报器、车辆远程通讯系统等加在一起,将会创造出多么庞大的数据。

IBM称,我们每一天都能创造出2.519字节的信息。数据正在指数式增长,并且,当今世界上90%的数据都是在过去两年内创造出来的。这些数据来自各个地方,比如传感器收集气象信息上传到社交网站,数字图像和数字视频,电子商务交易记录,GPS坐标等等。

当然,在早期人类历史上,像推特之类的简短信息并没有记录下来,所以对比只能到此为止。实际生活中,每一天我们都在创造如下数据:

•超过2.04亿封电子邮件消息;

•超过200万的谷歌查询;

48小时更新的YouTube视频;

68.4万条分享在Facebook上的内容;

•10万余条推特;

•27.2万美元的电子商务投资;

3600张分享在Instagram新照片;

•将近350篇新发布的WordPress博客。

图1所示是人们每天所创造的数据示意图。

图1每天所创造的数据示意图(图片来源于:DOMO)

大数据面临的挑战在于,不同系统中到处都能储存数据。打破相互独立的数据系统,标准化操作是当今面临的主要任务。另外一个主要任务是创建大数据平台,可以存储结构化数据和非结构化数据。

当你进入大数据这块领域时,你会发现更多神秘的挑战。比如,传统数据库最初并没有用到多核处理器。因此,它们在

处理数据的时候速度较慢。这导致“快速数据”概念的出现,像ParStream之类的小型公司正试图克服数据库遗留的问题。

从累积到分析

我们需要处理许多数据。积累数据是一回事,而处理数据则是另外一回事。收集报纸、吞拿鱼空罐子和小野猫的人,不会被人们视作为一个有辨别力的收集者。想象一下,你也不会到废物囤积者家中学习历史,因为那儿可用的信息不多。相反,我们一般会去从古董收藏家那获得知识。

尽管有了数据,这个世界上还是有很多囤积者。当今数字储存价格低廉,因此人们把所有数据都储存起来。确切地说,他们从不会自找麻烦,删除数据。网络存储方面也是一样,在开始低收费之前,在线存储供应商甚至还会定期免费放出几个GB的数据,供客户使用。

当今,许多企业正在努力处理无止境扩张的数据,因为如果不这么做的话,企业将失去竞争力。

IBM称,数据的指数化增长将给许多企业留下严重的盲点。IBM研究发现,企业领导经常许可一些无数据支撑的决策,或者他们的决策是基于置信度不高的信息之上。更令人惊讶的是,半数企业领导者表示,他们尚未找到可以让工作效率变高的信息途径。

虽然大多数企业领导者和有关人员知道,与工作相关的数据确实存在,但不知道哪里可以获得这些数据。即使他们已经有一个大致的想法,他们还不清楚如何将想法提炼,应用到实际生活中。他们试图寻找这些相关数据,但始终没法确定数据的实时性和准确性。

大数据分析旨在处理上述问题。我们追求的不只是原始数据,而是分析这些数据的技术。

大数据分析体系

当技术达到能将数据独立性打破、数据分析能力提高时,商业即可转换成各种形式。分析大数据技术的进步能让研究人员在数分钟之内解码人体DNA,这项技术让基因公司(如23andme公司)成功运转。

同时,研究人员能够预测预谋的袭击地点,特定的疾病是由哪种基因引起,分析你在Facebook上最有可能回复的广告内容。

事实上,由PNAS发布的最新研究显示,你在Facebook上点击“赞”的内容表明了自己的性格特征,比如你的智力、性别、性取向、政治倾向或者其他个人信息。

然而,部分商业观察并没有令人惊讶,比如喜欢"小商业星期六”的人可能比典型Facebook用户的年龄要大;有些商业观察让人困惑,比如喜欢油条与智商高有关。当然,关联并不等于因果关系,这有可能是随机的统计噪声。但是,大数据分析能识别统计噪声。

经营大数据的商业案例比喜欢油条更有说服力。例如,为提高最近热门剧集《纸牌屋》的收视率,网飞公司(Netflix)挖掘用户数据,从中加入一些必要的因素。运用用户数据,同样促使他们的情景喜剧《发展受阻》起死回生。

另外一个例子是来自世界上最大的移动运营商之

法国电信,该运营商发布了DataforDevelopment项目,为象牙海岸的客户提供用户数据。数据有共计25亿条匿名记录,包括500万人之间的通话记录和互通短信。

许多研究人员访问数据集,给法国电信发出建议,认为这些数据可以成为公司发展项目的基础。在所提议的项目中,有一项是通过追踪手机数据,了解人们在紧急情况下的去向,以此来提高公共安全的。另一个项目是怎样用手机数据来了解疾病的传播。事实上,推特已在海地霍乱爆发时成功运用了该项功能。

美国国家安全局的Prism项目就是依赖大数据分析而运行的。这个项目将手机通话记录、电子邮件来往、即时通讯聊天、社交媒体等数据元导出,并进行处理。

政府官员支持这个项目,因为他们认为大数据分析是关键的防御措施。如果某人被认定为恐怖组织的嫌疑人,他的通话记录可以显示出其他的行踪,帮助国土安全部的官员锁定最有可能即将被袭击的目标。

大数据分析市场


当今,大数据分析市场仍处于起步阶段。SoftwareAG、Oracle、IBM、Microsoft,SAP、EMC、HP等大型软件公司互相争抢充满生机的新企业,如Datameer、AlpineDataLabs、SiSense、Cloudmeter。

大型公司花费数十亿美元,收购数据管理和分析的软件公司,如Apema、Jacada、MoreITResources、Vertica、Vivisimo等,这些新公司都是依靠风险投资基金得以运行的。

更为复杂的是,一些老公司在市场中也有一席之位,其中包括Pentaho、Splunk、Jaspersoft公司。

许多研究大数据分析的新型企业也有其市场定位,如分别定位于社会营销(DataSift)、电视广告购物(RocketFuel),应用性能(Cloudmeter)、求职招聘(Bright.com)等领域。

根据Wikibon的调查,2012年大数据市场总额将达到114亿美元。2013年则将达到181亿美元,比2012年增长61%。到2017年,总额将达470亿美元。以上数字意味着,在2012-2017年,大数据市场总额在以年均31%的速度增长。

显然,投资商们还有很大空间,因为市场领域仍是商家抢占的地盘。他们希望,在不久的将来,有更多数据能被整合。

这就是大数据的目标,我们追求的不只是初始数据,而是分析数据的技术。图2所示是大数据分析的主要分布。

图2大数据分析的企业分布(图片来源于:DataLanscape.com)

展望未来一一大数据的趋势

(1)开放源代码

大数据获得动力,关键在于开放源代码,帮助分解和分析数据。Hadoop和NoSQL数据库便是其中的赢家,他们让其他技术商望而却步、处境很被动。

毕竟,我们需要清楚怎样创建一个平台,既能解开所有的数据,克服数据相互独立的障碍,又能将数据重新上锁。

(2)市场细分

当今,许多通用的大数据分析平台已投入市场,人们同时期望更多平台的出现,可以运用在特殊领域,如药物创新、客户关系管理、应用性能的监控和使用。若市场逐步成熟,在通用分析平台之上,开发特定的垂直应用将会实现。但现在的技术有限,除非考虑利用潜在的数据库技术作为通用平台(如Hadoop、NoSQL)。

人们期望更多特定的垂直应用出现,把目标定为特定领域的数据分析,这些特定领域包括航运业、销售业、网上购物、社交媒体用户的情绪分析等。

同时,其他公司正在研发小规模分析引擎的软件套件。比如,社交媒体管理工具,这些工具以数据分析做为基础。

(3)预测分析

建模、机器学习、统计分析和大数据经常被联系起来,用以预测即将发生的事情和行为。有些事情是很容易被预测的,比如坏天气可以影响选民的投票率,但是有些却很难被准确预测。例如,中间选民改变投票决定的决定性因素。

但是,当数据累加时,我们基本上有能力可以大规模尝试一个连续的基础。网上零售商重新设计购物车,来探索何种设计方式能使销售利润最大化。根据病人的饮食、家族史和每天的运动量,医生有能力预测未来疾病的风险。

当然,在人类历史的开端,我们就已经有各种预测。但是,在过去,许多预测都是基于直觉,没有依靠完整的数据集,或者单单靠的是常识。

当然,即便有大量数据支撑你的预测,也不表明那些预测都是准确的。2007年和2008年,许多对冲基金经理和华尔街买卖商分析市场数据,认为房地产泡沫将不会破灭。根据历史的数据,可以预测出房地产泡沫即将破裂,但是许多分析家坚持原有的观点。

另一方面,预测分析在许多领域流行起来,例如欺诈发现(比如在外省使用信用卡时会接到的电话),保险公司和顾客维系的风险管理。

重新聚焦于人为决策?

机器学习能力不断提升,逐步成为分析套件里的必要工具。此时,不要惊讶,人类因素正渐渐淡化。

企业主经常尝试限制人为误差。任何网络安全专家,通过详细讨论后指出,安全漏洞是由人为误差而引起的,比如过度依赖弱口令,不慎进入钓鱼网站或其他安全系数低的网站。

然而,即使机器学习能力不断提升,机器也只能提问我们事先设定的问题。这会给我们带来很大限制:若依赖于机器,我们究竟可以得到多少。

人为因素对大数据的出现十分关键。大数据领域最有名的两位预言家和先驱者是BillyBeane和NateSilver。Beane曾推广一个想法:将各种各样的数据联系起来,这些数据都是关于被低估的运动员的特质。接着把这些运动员召集起来,组成一支棒球队上场比赛。这支较为经济的团队竟能与实力雄厚的队伍(比如洋基队)进行抗衡。

有部分人不相信NateSilver的预测,开发出不依赖于数据分析的软件,比如UnskewedPolls(中文译为非倾斜民意调查,但其实不然)。因为许多人认为Silver只是数据库轮询方面的专家,但实际上他在大数据分析领域也十分在行。

在不同情况下,最重要的不是机器搜集数据、得到初始数据,而是人为顶端分析,只有人为因素才使这些数据有意义。人们可以将民意调查的数据视为罗夏墨迹测验的结果。

Silver则不然,他输入大量数据,观察各种民意调查在不同阶段的情况,并参考影响差误范围的因素,最后他能做出惊人的准确预测。

相似地,每个棒球队经理十分看重占垒率和其他得分统计,但是很少能像Beane领导的As队伍一样,他用如此少的资金就能抗衡实力雄厚的球队。寻找被低估的运动员比寻找天才球员更需要投入精力。你需要知道怎样合理地和其他球队经纪人协商、交易,你还需要思考,究竟哪一位球员能适应新创建的队伍。

当大数据分析逐渐成为主流,它将会变得和其他早期的技术一样普遍。大数据分析也会逐步成为一种日常工具,但关键还在于人为操作。

20211023_6172f069d13ee__大数据分析概要

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

北京——2024年4月18日 西门子中国和亚马逊云科技双方高层在西门子中国北京总部会晤,双方宣布签署战略合作协议,共同成立“联合创新团队”。基于亚马逊云科技在生成式AI领域的领先技术和服务,并结合西门子在工业领域的深厚积...

关键字: 生成式AI 机器学习 大数据

赛诺贝斯开创性"三位一体"商业模式:领跑MarTech行业的创新引擎

关键字: 数字化 大数据 大模型 生成式AI

随着大数据时代的到来和计算能力的不断提升,机器学习作为人工智能领域的重要分支,正逐渐改变我们的生活方式和工作模式。机器学习涉及多个学科的理论和技术,其应用广泛且深入,为各个领域的发展带来了前所未有的机遇。那么,机器学习具...

关键字: 大数据 机器学习 人工智能

随着大数据时代的来临,数据的价值日益凸显,如何从海量数据中提取有用信息并转化为实际价值,成为各行各业关注的焦点。机器学习和数据挖掘作为两大核心技术,在数据分析和处理中发挥着越来越重要的作用。本文将通过几个典型的应用案例,...

关键字: 大数据 机器学习 数据挖掘

随着互联网的迅猛发展,百度、阿里巴巴、腾讯等互联网巨头逐渐崭露头角,成为了行业的领军者。这些公司在云计算、大数据、人工智能等领域积累了丰富的经验和技术实力,为开发者提供了丰富的服务和工具。在这样的背景下,BAT模块应运而...

关键字: 互联网 云计算 大数据

随着大数据时代的来临,机器学习作为人工智能的核心技术之一,已经深入到各个领域并展现出强大的潜力和价值。机器学习通过对大量数据的分析、学习和预测,为各个行业提供了前所未有的机遇。本文将详细介绍机器学习的常见任务,并探讨这些...

关键字: 机器学习 大数据

人脸识别技术作为一种高效、准确的身份识别方式,近年来得到了广泛的应用和发展。随着人工智能、大数据等技术的不断发展,人脸识别技术的准确度和可靠性得到了显著提高。本文将探讨人脸识别技术的发展现状和未来趋势。

关键字: 人脸识别 人工智能 大数据

人工智能是“十四五”规划明确优先发展的前沿科技领域之一,如何看待未来我国人工智能领域的发展前景?目前,我国机器人基础研究状况如何?

关键字: 人工智能 物联网 大数据

北京——2024年1月23日 行业数字化服务商华讯网络系统有限公司(简称华讯)充分利用亚马逊云科技丰富的数据和安全服务以及解决方案,结合自身在安全领域的技术优势和深厚沉淀,为企业提供涵盖安全事件响应、云原生安全大数据平台...

关键字: 大数据 数据分析 互联网

2023年,重庆云谷·永川大数据产业园通过大力发展科技影视、自动驾驶和服务外包产业,已形成科技影视、自动驾驶、服务外包“三足鼎立”之势,释放出高质量发展强劲动力。

关键字: AI 科技 大数据
关闭
关闭