当前位置:首页 > 物联网 > 智能应用
[导读] 大数据分析是一个很重要的功能,但是纯粹的数据量被消化、处理和存储会很快变成一个财政负担。运行大数据平台、每秒处理数百万个事件的组织面临着一个持续的挑战:平衡对稳健数据管理的需求和成本效益。

大数据分析是一个很重要的功能,但是纯粹的数据量被消化、处理和存储会很快变成一个财政负担。运行大数据平台、每秒处理数百万个事件的组织面临着一个持续的挑战:平衡对稳健数据管理的需求和成本效益。

本文以通用大数据平台为例,通过不同的策略有条不紊地检查和控制成本。

端到端大数据平台组件

一个端到端的大数据平台简化了数据的过程,从原始格式到可行的见解。它由几个关键组件组成,这些组件可以一起有效地管理整个数据生命周期。

· 数据摄取层: 这是一个切入点,无缝地从各种来源获取数据,无论其格式如何(结构化、半结构化、非结构化)。它可以过滤掉不相关的数据,以提高效率,并将其转换为一致的、定义明确的结构(模式),以进行更好的分析。

· 低延迟分析层: 在这里,实时或近实时处理处于中心阶段。这一层对于需要立即采取行动的应用程序至关重要,例如分析可疑活动交易的欺诈检测系统。

· 临时搜索和索引: 这一层授权灵活地探索您的数据。它创建可搜索的索引,使用户能够进行快速和有针对性的搜索,以满足预期和未预见的分析需求。

· 储存层: 平台提供适合不同使用情况的存储解决方案:

o 短期储存: 该层存储了数据科学项目、调查和模型开发或执行中常见的批处理任务的数据。

o 长期储存: 这种层存储了较长时间的数据,而检索的频率较低。对于审计目的或历史分析来说,它是最理想的,因为长期的可访问性是至关重要的。

摄取层的优先摄取效率

计算机科学的核心原则,不仅仅是大数据,是在开发生命周期的早期解决问题。单元测试完美地证明了这一点,因为及早捕捉错误是成本效益更高的。同样的逻辑也适用于数据的摄取:尽快过滤掉不必要的数据,最大限度地提高效率。通过将资源集中在具有潜在业务价值的数据上,可以最大限度地减少浪费。

另一个优化策略是数据正常化。在摄入过程中将数据转换为定义明确的模式(结构)提供了显著的优势。这种前期处理减少了数据平台中后续组件的解析负担,使它们能够专注于核心任务。

低延迟的计算层虽然还不普遍,但对愿意投资的组织来说却有很大的优势。通过利用现代流技术,这些层可以大大降低处理成本,并以闪电般的速度产生洞察力。这种实时能力使企业能够处理欺诈侦查、安全等关键用途案件 事件应对 ,以及以极具成本效益的方式处理通知书。

优化对成本和效率的特设搜索

虽然临时搜索提供了灵活性,但由于索引、复制和处理查询所需的资源,它可能成为一个重要的成本因素。以下是优化特设搜索和简化数据管理的战略:

· 分析搜寻模式: 通过仔细检查用户查询,无论是临时的还是定期的保存的搜索,您都可以确定向临时搜索工具输入数据的机会。这可能涉及过滤不相关的数据或预先处理数据,以提高搜索效率。

· 利用低延迟分析: 审查计划保存的搜索可以揭示将它们迁移到低延迟分析层的机会。这对于需要实时洞察力的搜索或涉及高计算成本的搜索特别有利,例如正则表达式(Regex)或子字符串搜索。通过在低延迟层中处理这些数据,您可以释放临时搜索系统中的资源,并有可能降低总体成本。

· 为提高效率而规范化: 分析使用模式,以确定数据摄入过程中的正常化机会。在正常化过程中,提前提取相关数据可以显著降低复杂搜索(如Regex或子字符串搜索)的相关计算成本。

优化数据存储

存储数据所涉及的费用与需要存储的数据数量和数据的使用成正比。云计算提供者根据数据的大小收费,然后在计算、网络和传输中需要额外的费用来执行数据上的任何计算。有两种简单的优化方法 储藏室 费用:

了解您的数据使用频率

实现成本优化的第一步是明确了解您的数据环境。这包括根据访问频率对数据进行分类:

· 热数据: 经常访问对实时分析和决策至关重要的数据。实例包括流式传感器数据、用户活动日志和财务事务。

· 热数据: 数据定期访问,但不是实时的。这可能包括历史日志、客户数据和点击流数据。

· 冷数据: 很少访问具有长期保留要求的数据。这可能包括历史备份、合规档案和来自不活动项目的日志数据。

通过对数据进行分类,您可以定制其存储策略。热数据需要高性能的存储,如固态驱动器(SSD),以便快速检索。温暖数据可以保存在更便宜的硬盘驱动器(HDDS)上,而冷数据最适合于成本效益高的对象存储解决方案。

数据生命周期管理

数据积累得很快,如果没有适当的管理,就会导致存储膨胀和不必要的成本。实现 数据生命周期管理 自动化数据移动和删除的政策。这些政策可界定为:

· 数据保留期: 根据监管和业务要求,设定存储不同数据类型的具体时限。超过这些期间的旧数据可以归档或删除。

· 数据质量检查: 自动检查数据的完整性和一致性.识别并删除重复数据或错误数据,以优化存储利用率.

· 数据分类: 随着数据年龄的增加,根据您的数据分类,将其自动移动到成本较低的存储层。这确保了热数据随时可用,同时保持整体存储成本效益。

优化架构促进效率

您的大数据平台的架构对其整体成本有重大影响。以下是如何优化资源利用:

· 正确评估实例: 分析处理作业的资源使用模式.不要成为过度配置的牺牲品;根据实际的工作量需求,将实例(虚拟机)向上或向下扩展。这可以通过云计算提供者提供的自动规模化功能来实现。

· 云成本管理工具: 利用你的云平台提供的成本管理工具。这些工具提供了对资源利用和成本细目的详细了解,并确定了潜在的节约。探索以下特征:

o 保留实例: 在承诺使用期间以折扣率购买计算机资源。这可能有利于可预测的工作量。

o 局部实例: 利用未使用的云容量,降低需求价格。这对于具有灵活调度需求的批处理作业是理想的。

o 安排工作: 在云资源价格通常较低的情况下,在非高峰时间安排资源密集型数据处理任务。

监测和报告费用

成本优化是一个持续的过程。为了保持成本效益,实施健全的成本监测和报告做法:

· 费用 :开发仪表板,提供不同资源类别的实时和历史成本洞察力。可视化成本趋势有助于积极主动地确定潜在的成本增加。将成本度量作为业务度量,需要对趋势变化进行监测,以便在成本成为问题之前采取行动。

· 费用归属 根据具体部门和项目的数据使用情况分配费用。这有助于提高内部利益攸关方的成本意识,并鼓励负责任的数据管理做法。

结论:实现成本效益高的大数据管理之路

优化大数据平台的成本是一个持续的过程。通过实施上述战略,您可以在不损害数据生态系统的功能和价值的情况下节省大量费用。最有效的方法将取决于您的特定数据环境、工作负载和云环境。定期监控、整个开发生命周期的成本意识以及持续改进的承诺是确保大数据平台提供高效率和高成本效益的见解的关键。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭