当前位置:首页 > 工业控制 > 《机电信息》
[导读]摘要:随着大数据智能时代的到来,用数据创新、数据决策已逐渐成为科研创新和管理决策的新常态、新模式。葡萄种植的各个环节产生了大量的数据,如何处理并有效利用这些海量数据成为当前企业发展过程中面临的一大难题。现基于传统的数据仓库与Hadoop大数据技术框架,结合企业实际情况,分析设计了葡萄种植大数据系统,以快速处理葡萄种植的大数据。

引言

葡萄作为一种健康食品,普遍受到消费者的喜爱。随着生活水平的提高,葡萄的食用品质及质量安全越来越受关注。葡萄品质受到温度、降水量、日照时数、海拔高度、昼夜温差、土壤性状等环境因素的影响,另外也受到品种、管理技术的影响。影响葡萄质量安全的主要因素是环境污染和农药、化肥、有机肥、生长调节剂的不规范应用。

面对目前的葡萄种植、消费状况,如何提升葡萄质量,增加效益,成为当前我国葡萄产业必须面对的问题。提升葡萄品质及安全需要从影响葡萄品质及安全的诸多因素入手,利用互联网、传感技术、物联网技术、遥感技术,收集这些影响因素数据,并进行储存、挖掘、分析、决策,这是解决问题的基本思路。但由于影响葡萄品质及安全的因素复杂,其数据来源广泛、类型多样、结构复杂,难以应用通常的方法处理和分析。而数据仓库技术的成熟及大数据技术的出现,为处理葡萄种植的庞杂数据提供了条件。本文基于传统的数据仓库以及成熟的Hadoop大数据技术框架,通过对葡萄种植大数据需求进行详细分析,设计出了葡萄种植大数据处理系统,可实现葡萄种植大数据的实时快速处理。

1技术概述

Hadoop是一个开发和运行处理大规模数据的开源分布式软件平台。基于Hadoop平台,可编写和运行分布式应用处理的大规模数据,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop主要由HDFs和MapReduce两个核心部分组成,HDFs提供了对数据的海量存储,而MapReduce提供了对数据的计算。Hadoop可处理任何格式的数据源,在处理半结构化和非结构化数据上,与关系型数据库相比有更好的性能,具有更灵活的处理能力。

spark是基于内存计算的大数据并行计算框架,在大数据环境下,它既可以提高数据处理的实时性,又可以保证高容错性和高可伸缩性,并且允许用户将spark部署在大量廉价硬件之上,形成集群。spark拥有HadoopMapReduce所具有的优点,与HadoopMapReduce相比,spark基于内存的运算要快l00倍以上,基于硬盘的运算也要快l0倍以上。spark实现了高效的DAG执行引擎功能,可以通过基于内存来高效处理数据流。

项目来源:南宁市科学研究与技术开发计划项目"基于大数据的葡萄智能化生产系统及配套标准化种植农艺管理技术研究与生产示范"(20l7ll24一7)

数据仓库(Datawarehouse)是一个面向主题的集成的相对稳定的反映历史变化的数据集合,其目的是构建面向分析的集成化数据环境,为企业提供决策支持。数据仓库中的数据包括元数据、粒度数据、当前详细数据、历史数据、档案数据,其数据应用主要有报表展示、即时查询、数据分析以及数据挖掘。根据数据仓库所管理的数据类型和它们所解决的企业问题范围,一般可将数据仓库分为下列3种类型:操作型数据库(oDs)、数据仓库(Dw)和数据集市(DM)。

2葡萄种植大数据处理系统的分析与设计

企业的经营活动会产生大量的原始数据,这些数据经过数据仓库的清洗、提纯、汇总,最终才能发挥它的效用,随着企业应用数据仓库技术的日渐深入,企业数据在实际应用中发挥了巨大的生产效益,但企业数据的不断增长最终会让数据仓库的数据量突破PB量级,由此引起的数据仓库硬件及维护成本在增加,而效率却在降低。Hadoop技术的出现,弥补了传统数据仓库的缺陷,它能让数据仓库无限扩展且对硬件要求不高,因此将传统的数据仓库融入Hadoop技术框架是一种解决问题的方法。

对于葡萄种植来说,要提升葡萄的质量、增加效益,采用温室大棚种植不失是一个好办法。通过温室大棚调节温室气候,可以让葡萄的生长达到最佳状态。在温室大棚中安置传感器,可对葡萄的生长环境进行多方位多点的精确采集和实时控制。通过传感器实时采集农业大棚内的空气温度、湿度、光照、土壤温度、土壤水分等环境参数,然后利用葡萄种植大数据处理系统,根据葡萄生长情况进行实时智能决策、预警预测。

葡萄种植大数据处理系统在设计上可分为4层,包括数据收集层、数据存储与计算层、数据服务层以及数据应用层。其框架图如图1所示。

图1葡萄种植大数据处理系统框架图

2.1数据收集层

该层主要通过设备接口获取葡萄种植园区传感器、监控设备、移动设备收集的数据,通过网络爬虫获取农业类科学网网页数据,通过ETL获取业务系统关系数据库数据。由于这些数据包含结构化、半结构化和非结构化特征,且可能存在错误、冗余、无用数据,所以需要进行清洗,以便可以得到干净可用的数据,为数据存储提供保障。

2.2数据存储与计算层

数据存储与计算层包括企业数据仓库、Hadoop平台以及spark分布式计算框架。企业数据仓库主要存储结构化数据,而Hadoop平台既可以存储结构化数据,也可以存储非结构化数据。数据仓库存储的数据可转存于Hadoop平台。由于数据仓库和Hadoop平台互为补充,可满足客户在不同使用场景下的业务需求。spark分布式计算框架与Hadoop平台结合可为数据查询、数据分析和数据挖掘提供平台支撑。

2.3数据服务层

该层基于spark分布式计算框架及Hadoop平台,可提供数据的管理、分析、挖掘功能:基于数据仓库可实现数据统计及报表功能。为了方便数据的共享,数据服务层还提供统一的服务接口,供平台应用及其他应用使用。

2.4数据应用层

该层可利用数据服务层的接口,可实现预警预测、知识发现、决策支持等应用。

3结语

目前,传统的数据仓库已经非常成熟,而大数据技术还在逐渐完善,这两种技术都有优缺点且互补,传统的数据仓库和Hadoop适用于不同的任务,因此Hadoop不应该视为企业数据仓库的替代品。传统的数据仓库用来保存结构化的辅助数据,而Hadoop用来存储非结构化、半结构化数据。企业级数据仓库可以专门保存对于业务用户具有重要价值的数据。两者结合可以丰富并创造各自所含数据的价值,帮助企业建立无法通过其他方式得到的战略优势。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

与安卓系统相比,鸿蒙系统具有卓越的性能,不仅可以应对各种各样的设备,而且在多设备播放和物联网方面也有很强的优势。

关键字: 鸿蒙系统 智慧时代 安卓系统

在电力电子与电气工程领域,逆变器和变压器都是不可或缺的重要设备。尽管它们都在电力转换和传输过程中发挥着关键作用,但它们在功能、工作原理和应用场景等方面存在着显著的差异。本文将从科技视角出发,对逆变器和变压器的区别进行深度...

关键字: 逆变器 变压器

电动机作为现代工业与生活的重要动力源,广泛应用于各个领域。然而,在电动机的运行过程中,电容烧毁的问题时常发生,给生产和生活带来诸多不便。那么,电动机为何偏爱“烧电容”呢?本文将从电容的作用、烧毁原因以及预防措施等方面进行...

关键字: 电动机 电容

在日新月异的工业技术领域,变频器作为一种电力电子装置,已逐渐成为驱动设备、节能降耗的不可或缺的关键设备。AMB100变频器作为其中的佼佼者,凭借其出色的性能、广泛的应用领域以及高效的节能效果,为现代工业生产提供了强大的动...

关键字: amb100变频器 变频器

光伏发电作为本世纪最具有潜力的可再生能源技术之一,其清洁、环保、可再生的特性受到广泛关注。然而,任何一项技术都不是完美的,光伏发电同样存在一些明显的缺点和挑战,这些问题限制了其大规模应用和商业化推广。本文旨在深入探讨光伏...

关键字: 光伏发电 光电效应

在电源管理领域,低压差线性稳压器(LDO)因其结构简单、稳定性好、噪声低等特点而得到广泛应用。随着电子设备对电源性能要求的不断提高,片外电容的LDO设计逐渐成为研究的热点。其中,功率管作为LDO的核心部件,其设计尤为重要...

关键字: ldo 有片外电容 低压差线性稳压器

磁铁,作为一种能够吸引铁、镍、钴等金属的特殊物体,自古以来就引起了人们的极大兴趣。在现代科技中,磁铁的应用更是无处不在,从电动机、发电机到核磁共振成像设备,无不体现了磁铁的神奇力量。那么,磁铁与磁铁之间是如何相互作用的呢...

关键字: 磁铁 磁场

随着可再生能源技术的不断发展和应用,逆变器作为能源转换和储存的核心设备,其在电力系统中的作用日益凸显。根据储能类型的不同,逆变器可以分为电化学储能逆变器和机械储能逆变器两大类。这两类逆变器在结构、原理和应用场景等方面存在...

关键字: 逆变器 可再生能源

随着全球能源结构的深刻变革,可再生能源的推广和应用已成为当今世界的发展趋势。在这一大背景下,逆变器作为连接可再生能源发电设备和电网的关键设备,其重要性日益凸显。本文旨在探讨逆变器的发展背景,分析当前市场现状,并展望其未来...

关键字: 逆变器 可再生能源

在电力系统中,隔离开关是一种关键设备,用于隔离电源、倒闸操作以及接通和断开小电流电路。在10kV高压系统中,隔离开关的选择尤为重要,它直接关系到电力系统的安全稳定运行。本文将对10kV高压隔离开关的选择进行详细探讨,以期...

关键字: 隔离开关 高压电
关闭