当前位置:首页 > 物联网 > 智能应用
[导读] 大数据的部署是个复杂的过程,涉及内容众多,但无论如何都离不开以客户需求为导向。进行大数据部署时也需要寻找一个经济上的均衡点,让硬件能最大效率的发挥出功能和性能。所以我们首先需要从客户的角度去考虑对方的需求,抽取出影响点,如实际运行时大概的数据量,客户的实时性要求怎样,高可用方面的要求如何,如此等等。

 大数据的部署是个复杂的过程,涉及内容众多,但无论如何都离不开以客户需求为导向。进行大数据部署时也需要寻找一个经济上的均衡点,让硬件能最大效率的发挥出功能和性能。所以我们首先需要从客户的角度去考虑对方的需求,抽取出影响点,如实际运行时大概的数据量,客户的实时性要求怎样,高可用方面的要求如何,如此等等。

大数据项目的实施,一般从概念阶段到部署上线主要分为以下几个步骤:

需求分析

首先就需要和使用大数据平台的用户进行充分的沟通,通过沟通了解用户将来运行的上层业务的业务特点以及重点。一般来说,大数据的业务类型基本可分为离线业务和在线业务,离线业务主要为MapReduce,进行数据的分析计算处理;在线业务主要为HBase,HBase对外提供实时的数据查询业务。当然上层业务也可能基于Hive来处理,但Hive实质上还是基于MapReduce。

了解用户业务运行时的数据量,分析数据模型,包括已有的数据量、后续单位时间内增加的数据量,以及用户期望的数据保存时间等要求。

模型设计

基于用户的数据量等信息设计存储和计算模型。

考虑数据的存储方式是通过HDFS进行存储还是通过HBase进行存储,或者两者兼而有之。如果用户的数据较为离散,并且只有存储的简单要求,一般单纯采用HDFS即可满足要求。如果用户数据存在外部查询用途,且实时性要求较高,则可以考虑采用HBase进行存储,通过HBase对外提供在线查询业务。

硬件规划

主要基于用户的需求进行硬件规划、部署设计、以及IP地址的规划。需要考虑每台服务器的单节点的性能要求。如计算要求高,则CPU和内存的配置要求也较高,同时在部署设计上需要把计算节点独立出来,避免存储节点占用过多CPU,导致计算延迟。如存储要求高,则需要加大磁盘的容量,在部署设计上可以多DataNode节点分担文件读写压力,同时将计算节点和DataNode节点合设,以减少服务器数量。

市场上有各种类型的磁盘,性能上存在差异,所以还要考虑磁盘类型的选择,一般来说选用sas盘较多,性能要求较低可考虑sata盘,性能要求较高可考虑采用ssd盘。

另外还可以通过raid来辅助实现磁盘性能的提升以及高可靠性的提升。

同时平台的整体部署离不开高性能网络的支撑,所以网络建议采用万兆网,既可以降低网络部署的复杂性,也可以提高可维护性。特殊情况下,也可以采用多网口绑定的方式,但是往往会大幅提高网络部署的复杂性。

对于实现高可用,我们一般都会对网络采用双网双平面的部署方式,如下图所示(图中略去防火墙等设备,主要保留平台所需的设备)。

软件规划

根据用户的业务,规划采用哪些组件来满足用户的功能要求,并且通过部署来实现业务的高可用,高可扩展。

在各个节点部署服务时,还要注意服务间的依赖关系。如HDFS的QJM方式的HA实现对Zookeeper有依赖。

硬件部署

即完成机架的部署和网络的部署,以及服务器在机架上的部署。如果有raid卡的话还要完成raid卡的设置。

软件部署

当硬件完成部署后,接下来就是部署软件了,包括操作系统的安装配置,以及大数据平台的安装配置。

操作系统安装完后,如果是多网口绑定,那就还需要作网口绑定设置。

然后就是最关键的大数据平台的部署了,中兴通讯自研了一套功能强大的管理系统,可完成大规模的平台部署,同时完成大量节点的部署,自动高效。

为保证大数据系统的稳定可靠运行,在整体部署上应遵循如下隔离原则:

生产环境和测试环境的隔离

系统环境分为生产环境和测试环境。其中生产环境用于实际运营,承载真实业务数据和业务应用;测试环境用于各种功能验证和性能测试等,包括应用在上线前的功能验证。如把两个环境合用,将带来很多不确定性,测试环境容易对生产环境造成干扰,影响生产环境正常业务的提供,甚至测试环境中不成熟的应用和业务运行时可能对环境造成破坏性的影响。因此对两个环境进行物理隔离,两者独立运行,互不干扰,防止因硬件资源的占用或者抢夺对运行造成不必要的影响。

不同集群的隔离

为避免可能存在的机架断电导致集群数据丢失或者停止服务,需要将属于同一个集群的不同节点分别部署到不同的机架上,通过多个机架的方式提供对服务器的承载。每个集群都基于一套独立的HDFS运行,这样从物理上和逻辑上与其他集群都进行了隔离。

在线应用和离线应用的隔离

在大数据平台上运行的应用分为在线应用和离线应用两大类。为保证重点在线应用的正常运行,需要单独规划HBase集群,且该集群基于一套独立的HDFS运行,从物理上和逻辑上和其他集群都进行隔离。

不同在线应用的隔离

对于在线应用,分为一般在线应用和重点在线应用,重点在线应用基于一套独立的HDFS运行,实现物理隔离,用于存储重要的在线数据,保证实时查询服务的持续提供。一般在线应用用于提供普通的HBase查询,对实时性的要求低于重点在线应用,所以可和离线应用部署在一个集群中。

不同应用数据的隔离

集群中的数据都是基于HDFS进行存放的,因此对于属于同一个集群内的应用的数据隔离,可通过设置不同的HDFS目录存放的方式实现不同应用数据的隔离:

不同应用属于不同的用户,不同的应用使用不同的目录,然后通过对目录进行权限配置的方式进行隔离和共享。

各个应用在自身所属的目录下设置子目录,以及数据计算所需的输入(例如:Input)和输出(例如:Output)的目录名称等。

我们依据上述的要求来考虑硬件的选型、平台软件的版本选择、部署时组件的配合以及组件自身针对业务形态进行的优化配置。一般来说,对于硬件往往是配置越高越好,但客户往往也关注效费比等经济性方面的问题,因此我们进行大数据部署时也需要寻找一个经济上的均衡点,让硬件能最大效率的发挥出功能和性能。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

北京——2024年4月18日 西门子中国和亚马逊云科技双方高层在西门子中国北京总部会晤,双方宣布签署战略合作协议,共同成立“联合创新团队”。基于亚马逊云科技在生成式AI领域的领先技术和服务,并结合西门子在工业领域的深厚积...

关键字: 生成式AI 机器学习 大数据

赛诺贝斯开创性"三位一体"商业模式:领跑MarTech行业的创新引擎

关键字: 数字化 大数据 大模型 生成式AI

随着大数据时代的到来和计算能力的不断提升,机器学习作为人工智能领域的重要分支,正逐渐改变我们的生活方式和工作模式。机器学习涉及多个学科的理论和技术,其应用广泛且深入,为各个领域的发展带来了前所未有的机遇。那么,机器学习具...

关键字: 大数据 机器学习 人工智能

随着大数据时代的来临,数据的价值日益凸显,如何从海量数据中提取有用信息并转化为实际价值,成为各行各业关注的焦点。机器学习和数据挖掘作为两大核心技术,在数据分析和处理中发挥着越来越重要的作用。本文将通过几个典型的应用案例,...

关键字: 大数据 机器学习 数据挖掘

随着互联网的迅猛发展,百度、阿里巴巴、腾讯等互联网巨头逐渐崭露头角,成为了行业的领军者。这些公司在云计算、大数据、人工智能等领域积累了丰富的经验和技术实力,为开发者提供了丰富的服务和工具。在这样的背景下,BAT模块应运而...

关键字: 互联网 云计算 大数据

随着大数据时代的来临,机器学习作为人工智能的核心技术之一,已经深入到各个领域并展现出强大的潜力和价值。机器学习通过对大量数据的分析、学习和预测,为各个行业提供了前所未有的机遇。本文将详细介绍机器学习的常见任务,并探讨这些...

关键字: 机器学习 大数据

人脸识别技术作为一种高效、准确的身份识别方式,近年来得到了广泛的应用和发展。随着人工智能、大数据等技术的不断发展,人脸识别技术的准确度和可靠性得到了显著提高。本文将探讨人脸识别技术的发展现状和未来趋势。

关键字: 人脸识别 人工智能 大数据

人工智能是“十四五”规划明确优先发展的前沿科技领域之一,如何看待未来我国人工智能领域的发展前景?目前,我国机器人基础研究状况如何?

关键字: 人工智能 物联网 大数据

北京——2024年1月23日 行业数字化服务商华讯网络系统有限公司(简称华讯)充分利用亚马逊云科技丰富的数据和安全服务以及解决方案,结合自身在安全领域的技术优势和深厚沉淀,为企业提供涵盖安全事件响应、云原生安全大数据平台...

关键字: 大数据 数据分析 互联网

2023年,重庆云谷·永川大数据产业园通过大力发展科技影视、自动驾驶和服务外包产业,已形成科技影视、自动驾驶、服务外包“三足鼎立”之势,释放出高质量发展强劲动力。

关键字: AI 科技 大数据
关闭
关闭