当前位置:首页 > 物联网 > 《物联网技术》杂志
[导读]摘 要 :随着大数据时代的到来,如何存储管理和分析这些大数据是目前研究的热点。文中先分析了关于大数据的两种重要技术 :容错和可视化分析。容错技术有复制和纠删码两种,可视化分析技术有多维数据可视化、文本可视化、网络可视化和时空数据可视化。最后展望,随着工业界和学界更深入的研究,将来会有更完美的解决方案。

引 言

近年来,随着物联网技术、云计算技术和智能手机的普及,数据量呈爆炸式增长,大数据时代已经到来,如何存储管理和分析这些大数据是目前研究的热点。

1 大数据概述

大数据的常见特点包括大规模(Volume)、 高速性(Velocity)和多样性(Variety)[1]。大规模说明大数据的数据非常多,数据量在 ZB 级别 ;高速性说明大数据要求数据处理与分析具有“实时性”;多样性说明大数据不仅有传统的结构化数据,还有更多普遍采用文件系统存储 [2] 的半结构化数据和非结构化数据。一般来说,大数据的处理流程分为 : 数据抽取与集成、数据分析以及数据解释 [3]。

2 大数据关键技术

大数据有很多技术,本文仅介绍容错技术和可视化分析这两个重要的关键技术。

2.1 容错技术

目前分布式存储系统一般采用容错技术来提高系统的可靠性,当某些数据失效时利用容错技术来访问冗余数据。容错技术主要是利用数据冗余来实现,目前有两种方法 :复制(Replication)和纠删码(Erasure Code)[4]。

2.1.1 基于复制的容错技术

基于复制的容错技术的原理是将所有数据对象复制成多个数据副本,同时将这些数据副本分布在不同的存储节点, 当某个数据对象失效时,可利用其他数据副本来让存储系统正确运行。

目前有许多系统是采用基于复制的容错技术,如 Google公司的 GFS 和 HDFS,Amazon 公司的 Dynamo,它们分别采用基于元数据服务器(Meta-Data Server,MDS)的组织结构和基于 P2P 的组织结构。

基于元数据服务器的组织结构是利用元数据服务器来进行集中式管理,管理 MDS存储数据及其副本相关信息。副本的信息主要有位置信息和副本与数据的对应关系,如读取数据,需要访问 MDS来获取数据对象的位置信息 ;基于P2P的组织结构是利用 P2P的方式组织管理存储节点,存储或访问数据时,利用分布式哈希表(DistributedHashTable, DHT)来确定存储节点。

如何创建数据的副本和创建多少个副本是复制策略需要考虑的问题,目前复制策略有两种 :静态和动态。静态复制策略是系统运行前指定数目的副本,如 GFS和 HDFS两个系统中由配置参数确定副本的数目,优点是简单,缺点是缺乏灵活 ;动态复制策略根据系统环境动态地创建副本,优点是灵活,缺点是实现难。

创建的数据副本如何存放是放置策略需要考虑的问题, 目前放置策略有两种 :顺序和随机。顺序放置策略是将所有副本按顺序存放到存储节点,而随机放置策略是将所有副本随机存放到存储节点。

2.1.2 基于纠删码的容错技术

基于纠删码的容错技术的原理是将需要存储的数据对象D平均分成 k 个数据块(D1,D2,…,Dk),同时给这些数据块进行编码,编码为(X1,X2,…,Xn),当读取数据时,可以通过编码块(X1,X2,…,Xn)解码为原始数据对象 D。目前,纠删码的容错技术有 Reed-Solomon 码和奇偶校验码(Parity-Check Code)等方法。

降低纠删码修复成本的方法有两种 :基于度数限制和基于网络编码。基于度数限制方法是限制纠删码数据块和冗余块的度数,如 WEAVER 码 ;基于网络编码是将编码和路由进行融合,如再生码(Regenerating Code)。

2.2 可视化分析

一幅图胜过千言万语,故用可视化的图形来分析大数据, 这样会让用户直观地发现数据背后隐藏的信息,一般可视化分析技术有多维数据可视化、文本可视化、网络可视化和时空数据可视化等 [5]。

2.2.1 多维数据可视化

若数据变量具有多个维度属性,则称为多维数据。目前多维数据可视化技术有 5 类 :基于几何、面向像素、基于图标、基于层次和基于图形等。

基于几何的可视化技术原理是利用几何的方法来实现高维数据映射到二维空间。其方法有 :平行坐标系、放射坐标系、散点图矩阵和 Andrews 曲线法等。平行坐标系是利用二维空间中 n 条平行坐标轴来表示 n 个维度,将维度和坐标轴建立一一对应关系 ;放射坐标系属于圆形平行坐标系,它利用 n 条半径表示 n 个维度 ;散点图矩阵是将各维变量两两组合成一个点,从矩阵中得到隐藏的信息 ;Andrews 曲线法是利用周期函数将多维数据映射到二维坐标系中的曲线上。

面向像素的可视化技术原理是,将多维数据划分为多个子窗口,每一个子窗口代表数据的某一维,并用像素的颜色来区分维度。其有两种方法 :基于查询和独立于查询。基于查询的方法是利用数据项和查询值两者关联度的高低来进行排列 ;独立于查询的方法是将数据项的值简单排列,排列的方式为从左到右或从上到下。

基于图标的可视化技术原理是利用具有可视特征的图标来表示多个维度。其方法有 :Chernoff 面法和星绘法。Chernoff 面法利用人脸的大小、器官的特征来表示多维信息 ; 星绘法是从一点向外辐射多条线段,每条线段代表一个维度。

基于层次的可视化技术原理是,将多维空间划分为多个子空间,并以层次结构的方式来展示这些子空间,其方法有维堆和嵌套坐标系等。

基于图形的可视化技术原理是用整个图形来表达多个维度和它们之间的相互关系,其方法有多线图和 Survey Plot 等。

2.2.2 文本可视化

非结构化数据最主要的是文本信息,文本可视化可以直观地展示大数据文本信息中所蕴含的关键信息。文本可视化的研究主要有两类 :基于文本内容和基于文本关系。

基于文本内容的可视化主要有标签云(Tag Cloud)、Tile Bars 等技术。标签云将关键词根据词频或字母顺序来排序, 以字体大小、字体颜色来对关键词进行可视化,一般用在网络媒体中来识别主题热度 ;Tile Bars 应用于查询任务,它利用矩形条的灰度来展示查询词在文献中的分布情况。

基于文本关系的可视化主要有 Word Tree 和 FP-Tree 等技术。Word Tree 是与后缀树相结合,以树状结构展示关键词的上下文关系 ;FP-Tree 显示文献的共引关系,能展现文献聚类中的信息。

2.2.3 网络可视化

网络可视化是用图形来展示网络数据,从而可以发现网络数据的结构,其技术有两类 :基于节点和边与基于空间填充。基于节点和边的可视化技术是最经典的技术,它有圆锥树(Cone Tree)和放射图(Radial Graph)等方法 ;基于空间填充的技术有矩形填充和嵌套圆填充等方法。

2.2.4 时空数据可视化

时空数据具有地理位置与时间标签,时空数据可视化技术有流式地图(Flow Map)和时空立方体(Space-time Cube)等。流式地图展示了对象随时间与空间的变化所发生的行为变化,它融合了时间信息和地图信息 ;时空立方体利用三维来展现事件、时间和空间,它突破了二维平面的局限性。

3 结语

本文所述的容错技术和可视化分析技术是大数据的两个重要技术,它们是现在研究的热点,目前工业界和学界都在进行深入的研究。若干年后,希望会有更好更完美的解决方案。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

北京2022年10月19日 /美通社/ -- 随着云计算、大数据的普及发展,过去的"云"是服务于大企业的计算模型,而十多年过去了,越来越多的应用及业务走上"云端",对计算核心数需求...

关键字: ARM 大数据 云游戏 CPU

(全球TMT2022年10月19日讯)近日,美的楼宇科技正式与软通动力签订战略合作协议,双方采购互信、资源共享,将积极推动美的楼宇科技电梯、暖通等产品的采购使用,同时将在云计算、大数据、物联网、人工智能等领域进行深度合...

关键字: 楼宇 美的 数字化 大数据

在这篇文章中,小编将为大家带来大数据的相关报道。如果你对本文即将要讲解的内容存在一定兴趣,不妨继续往下阅读哦。

关键字: 大数据 智能电网 电网

今天,小编将在这篇文章中为大家带来大数据的有关报道,通过阅读这篇文章,大家可以对大数据具备清晰的认识,主要内容如下。

关键字: 大数据 分布式 Kafka

面对高速公路数字化、信息化、智能化发展趋势,江苏交通控股有限公司前瞻性地启动数字化变革,推动大数据、互联网、人工智能等新技术与交通行业深度融合,以信息化建设引领“大交通”,以数字新基建服务“大格局”,以数字化转型赋能“大...

关键字: 智慧交通 大数据 人工智能

济南2022年10月17日 /美通社/ -- 9月27日,"奋进新时代"主题成就展在北京展览馆盛大开幕。由重庆市大数据应用发展管理局、数字重庆大数据应用发展有限公司、浪潮新基建联合打造的重庆市新型智慧...

关键字: 智慧城市 大数据 新基建 智能化

北京2022年10月17日 /美通社/ -- 10月13日,同方股份有限公司与中国核工业二四建设有限公司举行战略合作签约仪式。双方将发挥各自优势,在高效能源利用、智慧工地建造、数字化转型智慧中枢等领域加深密切联系,展开多...

关键字: 核电 数字化 大数据 智慧工地

普瑞纯证医疗科技(广州)有限公司近日宣布完成由君联资本领投,老股东康君资本跟投的超亿元人民币B轮融资。本轮资金将主要用于海外医疗器械资源的布局、专业人才团队扩充、医疗器械领域的战略拓展,以及大数据信息化平台的升级迭代。(...

关键字: 医疗器械 大数据

大数据将是下述内容的主要介绍对象,通过这篇文章,小编希望大家可以对它的相关情况以及信息有所认识和了解,详细内容如下。

关键字: 大数据 物联网 分布式

在这篇文章中,小编将对大数据的相关内容和情况加以介绍以帮助大家增进对它的了解程度,和小编一起来阅读以下内容吧。

关键字: 大数据 Hadoop 机器学习

《物联网技术》杂志

2510 篇文章

关注

发布文章

编辑精选

技术子站

关闭