当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 大数据技术和人工智能技术的高速发展,推动运维管理由传统的人工运维向智能运维转变。AIOps即Artificial Intelligence for IT OperaTIons的缩写,是把机器学习

大数据技术和人工智能技术的高速发展,推动运维管理由传统的人工运维向智能运维转变。AIOps即Artificial Intelligence for IT OperaTIons的缩写,是把机器学习深度学习等人工智能算法应用于IT运维工具和业务系统所采集的大型数据集,并尝试模拟人类行为(如发现、判断、响应)的智能化运维管理平台。智能运维AIOps让运维管理具备算法和机器学习能力,通过持续学习将运维人员从纷繁复杂的告警中解放出来、使运维变得智能化。据Gartner预测,2020年AIOps的采用率将会达到整个运维行业的40%。

人工智能在AIOps中的具体应用

传统的运维方式在监控、问题发现、告警以及故障处理等各个环节均存在明显不足,需要大量依赖人的经验、工作效率低下,并且在数据采集、异常诊断分析、告警事件以及故障处理的效率等方面都有待提高。那么,以AI技术为支撑的AIOps是否能够解决这些问题呢?下面我们从监控、问题发现、告警以及处置这四个阶段分别介绍AI技术在各阶段的应用及价值。

智能化监控

企业使用大量的监控工具如APM、NPM、日志、DEM、基础设施监控等,来实现各个技术栈的监控。然而大量无效/无用数据会增加后端数据处理的压力,而数据的漏采可能导致问题、故障的漏报,此外监控工具需要大量的人工调试配置、严重依赖运维人员的经验,人工成本巨大。在智能运维中,通过基于机器学习算法的智能数据采集器来实现智能的数据过滤、关键数据识别、采集密度与频率调整以及采集服务器的性能均衡,从而提升数据采集的准确度、最小化人为干预程度、降低人力成本以及提高运维管理效能。

智能化问题发现

企业IT系统规模的扩大、运维环境的复杂化,使得运维人员从海量的数据中发现问题的难度也越来越大。AIOps可以通过智能异常检测、故障关联分析、故障根因分析和智能异常预测等能力,帮助运维人员快速定位问题、追溯故障根源,并实现故障的预测预警。

以智能异常检测为例,通过基于密度算法的异常检测(LOF)方法、基于Ensemble的快速异常检测方法、基于历史数据模型的异常检测等方法等AI技术,能够自动、实时、准确地从监控数据中发现异常,为后续故障的分析与处理提供基础。

对故障进行根源分析是在众多可能引起故障的因素中,追溯到导致故障发生的症结所在,并找出根本性的解决方案。利用机器学习或者深度学习的方法可以找出不同因素的之间的强相关关系,并利用这些关系,推断出哪些因素是根本性的因素,帮助用户快速诊断问题、提高故障的定位速度以及修复效率。

此外,故障往往不是独立存在的。海恩法则告诉我们,任何不安全的事故都可以预防。智能异常预测通过对重要特性数据进行预测算法学习来实现故障的提前诊断、从而避免损失。故障预测的场景包括:磁盘故障预测、网络故障预测以及内存泄露预测等,可以大幅度降低运维背锅的风险。

智能化告警

传统的告警管理一般使用固定阈值并且需要运维人员手动设置,这种方式不仅工作量巨大且十分依赖运维人员的经验,阈值设置不当可能导致告警风暴或者告警漏报等后果。当监控环境发生变化时,原先的固定阈值无法满足告警管理的要求。智能运维采用动态基线告警方式,智能分析数据的动态极限(即相对于历史时刻,当前状态的数据范围),弥补了以往人为设置固定阈值的缺陷,智能地分析数据的发展趋势以及分析数据动态极限,从而对告警做出智能的判断。

各种监控工具会产生海量的告警信息,这些告警信息中可能存在大量的冗余告警甚至形成告警风暴,对运维人员产生极大干扰,降低了运维工作的效率。智能运维针对短时、大量的、甚至是持续的冗余告警,可以通过相似度、相关性判断对这些冗余告警进行合并,从而为运维人员提供有效的告警信息,能够大幅降低运维工作的难度。

在运维管理中,如果一个告警长时间得不到解决,系统将该告警发送给上一级进行处理,这种告警策略即为告警升级。传统运维中一般采用“固定时间区间”的方法设置告警升级策略,其潜在的迟滞性可能会对业务造成一定的损失。云智慧智能运维方案通过梳理性能与业务之间的关联关系建立模型,当性能指标发生异常时分析对业务的影响程度,若影响程度超过条件时,自动升级告警事件,系统将升级事件通知发送给对应的告警组处理,避免因告警处理不及时带来的业务损失。

智能化故障自动处理

传统运维管理中对故障的处理非常依赖运维人员的经验,但人的经验无法覆盖所有故障范围,运维人员经验不足可能会使得运维效率低下或者产生错误决策。智能运维将API接入的实时监测结果或者预测结果引入决策知识库(智慧大脑)智能生成决策建议,并根据根据实际结果及趋势判断采用的处理策略,可以是人工处理或者自动处理,有效减少问题排查的时间、大幅提升问题解决的效率,提升企业运维的标准化程度。

智能运维AIOps的价值

得益于大数据、云计算以及人工智能技术的发展,使得大量依赖人脑决策以及手工操作的传统IT运维模式快速地向如今的AIOps转变。特别是以机器学习为主的人工智能技术的迅猛发展,帮助解决了传统运维中的大量痛点,特别是在异常检测、异常预测、关联分析、根因分析、告警抑制、故障自动处理等多个方面和环节发挥作用。

以云智慧的某大型金融客户为例,通过使用云智慧智能业务运维平台,无论是整体运维工作效率,还是核心 KPI 都有大幅度的提升,同时IT运营也初步实现了数字化和智能化。在人工智能浪潮下,有了AI加持的智能业务运维可以为企业提供从智能告警、故障预测、故障检测与分析、故障定位到故障处理的运维能力闭环,帮助企业数字化转型,实现业务的健康持续增长。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭