当前位置:首页 > 物联网 > 物联网技术文库
[导读]   网络上流传着这么的一句流行语:“万事不懂问度娘”。自从有了各种搜索引擎,新名词新技术对大众而言,已不再神秘。然而,当你搜索“大数据”或者&ld

  网络上流传着这么的一句流行语:“万事不懂问度娘”。自从有了各种搜索引擎,新名词新技术对大众而言,已不再神秘。然而,当你搜索“大数据”或者“big data soluTIon”等关键字时,搜索出的海量相关知识铺天盖地,对初学者而言,仍然很难在短时间内入门。本文目的,是以傻瓜式提问的方式让初学者轻松的了解“大数据”。

  大数据的概念

  “大数据”,是不是----数据很大就叫大数据?

  实际上简单的这样理解也没有错,在明确定义时,会比较强调大数据的4个V的特性: Volume,Variety,Value,Velocity。也就是:

  一、数据存储空间占用大(至PB及以上级别);

  二、数据类型繁多;

  三、价值密度低;

  四、处理速度快。

  搜索的信息中,你会发现有某些名词出现的频率非常高,心里也随之会产生一些疑问。“PB是多大?”“Map-Reduce是啥?”“Hadoop是啥?”“大数据跟云计算啥关系?跟传统意义的数据库啥关系?”等等。

  这么多的信息量,我们还是按照大数据的基本定义,四个V来逐一梳理吧。

  从第一个V开始,Volume。

  数据量很大,到底能达到什么程度呢?先来学习一下数量级的知识吧。

  1KB(Kilobyte 千字节) = 2^10 B = 1024 B;

  1MB(Megabyte 兆字节) = 2^10 KB = 1024 KB = 2^20 B;

  1GB(Gigabyte 吉字节) = 2^10 MB = 1024 MB = 2^30 B;

  1TB(Trillionbyte 太字节) = 2^10 GB = 1024 GB = 2^40 B;

  1PB(Petabyte 拍字节) = 2^10 TB = 1024 TB = 2^50 B;

  1EB(Exabyte 艾字节) = 2^10 PB = 1024 PB = 2^60 B;

  1ZB(Zettabyte 泽字节) = 2^10 EB = 1024 EB = 2^70 B;

  1YB(YottaByte 尧字节) = 2^10 ZB = 1024 ZB = 2^80 B;

  1BB(Brontobyte ) = 2^10 YB = 1024 YB = 2^90 B;

  1NB(NonaByte ) = 2^10 BB = 1024 BB = 2^100 B;

  1DB(DoggaByte) = 2^10 NB = 1024 NB = 2^110 B;

  ……

  “哇!坑爹啊,整出这么多名词,跟大数据都有关系吗?需要我们掌握吗?”别激动!其实,KB,MB,GB我们在日常电脑操作中已经经常碰到了。甚至TB级的大硬盘,也已经应用于家用电脑中了。我们所说的“大数据”,目前大多产品还处在了立足PB展望EB的级别。后面的那些什么ZB、YB、BB、NB、 DB……等,就暂时先当他们是浮云吧~

  第二个V, Variety。

  关于这一点,百度百科里是这么说的“网络日志、视频、图片、地理位置信息等等”。从专业一点的角度,我们可以说“大数据”中,可以有结构化数据,但更多的是大量的非结构化和半结构化数据。

  结构化和非结构化数据是什么意思?

  结构化数据是指,可以存储在数据库里,可以用二维表结构来逻辑表达实现的数据。

  非结构化数据,是指不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。

  而半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。

  上述的描述,其实还是有点不明确。用数据模型的列表来看,区别就更清晰一点了:

  

  第三个V,Value。

  价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。

  第四个V,Velocity。

  处理速度快。如此庞大的数据量,需要在短时间内迅速响应。所使用的技术,当然是有别于传统的数据挖掘技术的。

  释疑解惑

  “梳理完了四个V,咋还是云山雾罩的呢?”

  下面来回答几个初学者可能思考到的问题吧!

  针对大数据的四个V,有没有什么对应的技术来应对呢?

  目前,查询“大数据”,你会发现度娘给出的各种信息中,Hadoop这个词出现的很频繁。而且,很多厂商提供的产品,也都会打上一个标签:“**产品已经并入Hadoop分布式计算平台,以及将Hadoop引入**产品。”

  什么是Hadoop?

  Hadoop是由Apache基金会开发的一个分布式系统基础架构。它是一个能够对大量数据进行分布式处理的软件框架。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。

  Hadoop包含了如下子项目:

  1. Hadoop Common: 在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common

  2. HDFS: Hadoop 分布式文件系统 (Distributed File System) - HDFS (Hadoop Distributed File System)

  3. MapReduce:并行计算框架,0.20前使用 org.apache.hadoop.mapred 旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API

  4. HBase: 类似Google BigTable的分布式NoSQL列数据库。

  5. Hive:数据仓库工具,由Facebook贡献。

  6. Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。

  7. Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。

  8. Pig: 大数据分析平台,为用户提供多种接口。

  作为初学者,我们先拨开一些浮云,看看这里面到底有些什么。有三个主体部分,是我们需要重点关注的:HDFS、MapReduce、HBase。

  实际上,Apache Hadoop的HDFS是Google File System(GFS)的开源实现。MapReduce是Google MapReduce的开源实现。HBase是Google BigTable的开源实现。

  Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。它主要有以下几个优点:1高可靠性2高扩展性3高效性4高容错性。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。而实际上,很多公司提供的大数据产品也是基于Hadoop进行开发的。

  数据存储空间占用大

  针对数据存储空间占用大,我们需要用到的是“分布式存储”。分布式存储系统,就是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。

  前面我们介绍到的Hadoop,其中的HDFS就是现今最流行的分布式存储平台之一。

  HDFS原理简要描述

  HDFS(Hadoop Distributed File System),是一个分布式文件系统。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。

  HDFS是一个主从结构的体系,一个HDFS集群是由一个名字节点,它是一个管理文件的命名空间和调节客户端访问文件的主服务器,当然还有的数据节点,一个节点一个,它来管理存储。HDFS暴露文件命名空间和允许用户数据存储成文件。

  对外部客户机而言,HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。

  内部机制,是将一个文件分割成一个或多个的块,这些块存储在一组数据节点中。名字节点(NameNode)操作文件命名空间的文件或目录操作,如打开,关闭,重命名,等等。它同时确定块与数据节点的映射。数据节点(DataNode)来负责来自文件系统客户的读写请求。数据节点同时还要执行块的创建,删除,和来自名字节点的块复制指示。这与传统的 RAID 架构大不相同。块的大小(通常为 64MB)和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。

  HDFS 内部的所有通信都基于标准的 TCP/IP 协议。

  数据类型繁多

  大数据处理,有如下需求:对数据库高并发读写的需求、对海量数据的高效率存储和访问的需求、对数据库的高可扩展性和高可用性的需求。传统的关系型数据库在此类需求面前束手无策。此时,一个新的概念被引入了----NoSQL。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

在全球汽车产业向电动化、智能化转型的浪潮中,中国电动汽车制造商凭借完整的产业链优势和技术创新能力,正从“产品出海”向“生态出海”跨越。物联网作为连接车辆、基础设施、用户与云端的核心技术,打破了地域、标准与服务的边界,通过...

关键字: 物联网 新能源 大数据

加利福尼亚州圣何塞 —— GTC —— 太平洋时间 2026 年 3 月 16 日 ——NVIDIA 今日宣布推出 NVIDIA BlueField-4® STX 模块化参考架构,该架构可助力企业、云计算及 AI 服务商...

关键字: 存储 云计算 AI

在数字化浪潮席卷全球的今天,云计算、大数据、人工智能等新兴技术正以前所未有的速度重塑着我们的生活与工作方式。而在这些技术的背后,虚拟化技术作为基石,默默支撑着整个IT架构的高效运转。从大型企业的数据中心到个人电脑的虚拟机...

关键字: 虚拟化 大数据

北京2026年2月3日 /美通社/ -- 近期,弗若斯特沙利文(Frost & Sullivan)联合头豹研究院发布了《2025年在华外商企业云计算服务采用研究报告》,亚马逊云科技凭借其全球标准一致的技术、领先的...

关键字: 云计算 亚马逊 生成式AI 云服务

北京——2026年2月4日 从最初只能完成基础问答的聊天助手,到如今不断深入业务核心、具备自主行动能力的AI Agent,生成式AI浪潮正迈入企业创新的深水区。当AI开始深度介入企业运营和决策流程,企业应当如何更坚实地构...

关键字: AI 云计算

2026 年开年,云计算行业迎来历史性转折。亚马逊、谷歌两大云巨头接连官宣涨价,彻底打破了二十年来云服务价格 “只降不升” 的行业惯例。

关键字: AWS 谷歌 云计算

当地时间 1 月 26 日,芯片巨头英伟达宣布向云计算服务商 CoreWeave 追加 20 亿美元(约合 139.43 亿元人民币)投资,助力其推进 2030 年前建成 50 亿瓦人工智能算力基础设施的计划。

关键字: 英伟达 CoreWeave 芯片 云计算

在人工智能、自动驾驶与大数据处理等高性能计算场景的驱动下,传统存储体系面临着速度、功耗与可靠性的三重瓶颈。作为典型的非易失性磁电存储技术,磁阻随机存取存储器(MRAM)凭借高速读写、低功耗、非易失性与高耐久性的核心优势,...

关键字: 人工智能 自动驾驶 大数据

上海2025年12月18日 /美通社/ -- 时隔三年,美通社新传播年度大奖与论坛即将在2026年1月15日于上海举办。本次活动不仅将表彰过去一年以来,在内容创新、传播策略与技术监测等领域做出杰出贡献的品牌与个人,还将启...

关键字: AI 大数据 触点 NAS

云计算已成为企业运营不可或缺的支撑力量。它如同为企业打造了一个灵活多变、弹性扩展的虚拟数据中心,让企业能够轻松应对业务高峰与低谷,快速部署新应用和服务。然而,随着企业对云计算依赖程度的不断加深,云支出也如潮水般不断上涨,...

关键字: 企业 云计算 成本优化
关闭