面向新能源消纳能力评估的月负荷序列建模及场景生成方法研究
扫描二维码
随时随地手机看文章
0引言
随着全球能源结构转型和可再生能源的快速发展,光伏发电在电力系统中的比重逐渐增加。光伏发电的间歇性和波动性给电网的稳定运行和调度带来了挑战,因此需要更加精确的负荷预测方法以支撑光伏发电的消纳能力。精确的负荷预测方法不仅用于优化电网调度、提升系统运行效率,还能降低弃光率,充分利用可再生能源。
负荷预测方法主要包括传统统计模型和现代机器学习模型。传统的ARIMA(自回归积分滑动平均)模型因其简单易用且能处理线性时间序列,广泛应用于电力负荷预测。
针对光伏发电的负荷预测,相关研究已提出多种改进方法。邹兵[1]采用CNN—LSTM组合模型处理光伏功率和负荷预测,通过CNN提取空间特征,LSTM捕捉时间依赖关系;缪月森等人[2]通过Informer模型进行负荷及光伏出力系数预测,并采用包络线概念处理不确定性;商立群等人[3]利用VMD—ISSA—KELM方法,通过变分模态分解降低数据非平稳性,改进麻雀算法优化参数;文爽等人[4]应用GWO—EEMD—BP神经网络,结合灰狼优化和集合经验模态分解处理非平稳信号;汤德清等人[5]融合CNN—LSTM—XGBoost三种模型增强非线性预测能力;倪安安等人[6]采用改进的混沌鲸鱼优化算法和相关向量机(RVM)应对光伏输出的随机波动。M. N.AKHter、LIQIng、M.Sajjad等人[7—9]聚焦混合深度学习模型,通过结合信号分解、聚类算法和生成对抗网络,提升光伏功率及负荷预测在多步长、多场景下的精度与鲁棒性。
目前,大部分研究集中在单一时间尺度的负荷预测,缺乏考虑光伏发电特点及外部因素的综合评估方法。因此,本研究提出一种基于ARIMA模型的负荷序列构建方法,专注于光伏消纳的精细化评估。通过对历史负荷数据进行时间序列分析,并结合气象特征、行业用电特性及节假日效应等外部因素,提升预测的准确性和适应性。本研究的目标是优化ARIMA模型的参数配置,分析外部因素对负荷预测的影响,并提出ARIMAX模型的改进,最终为光伏消纳提供更高精度的负荷预测支持。
1 负荷序列模型
ARIMA模型通过差分操作确保时间序列平稳,利于模型的拟合和预测, 自回归部分和移动平均部分利用时间序列的过去值和预测误差进行建模,在此基础上引入外生变量扩展得到ARIMAX模型,有效提高模型对序列波动的解释能力和预测精度。
1.1 自回归积分滑动平均模型(ARIMA)
ARIMA通过结合自回归(AR)和移动平均(MA)的方法来捕捉时间序列中的变化趋势。ARIMA模型主要由三个部分构成: 自回归(AR)部分、差分(I)部分和移动平均(MA)部分。以下是对构建ARIMA的详细分析:
1)自回归部分(AR)。
自回归部分的阶数(p)表示使用过去多少个时间点的值来进行预测,其表达式为:
式中:yT是时间序列在T时刻的值;φ1,φ2,…,φp是自回归系数;εT是白噪声误差项,表示不可预测的随机扰动。
2)差分部分(I)。
差分部分用于将非平稳时间序列转换为平稳时间序列,其表达式为:
式中:yt'是差分后的时间序列在时刻t的值;yt是原始时间序列在时刻t的值。
式(2)表示t时刻的值与过去若干值之间的线性关系。
若经过一次差分仍不平稳,则进行二次差分或更高阶的差分。差分阶数(d)表示需要进行多少次差分操作以使时间序列平稳。
3)移动平均部分(MA)。
移动平均模型的阶数(q)表示使用过去多少个时刻的误差来进行预测,其表达式为:
式中:yt是时间序列在t时刻的值;εt ,εt—1,… ,εt—p是预测误差;θ1,θ2,…,θq是移动平均系数。
4)ARIMA模型的数学表达式:
式中:yt是时间序列在t时刻的值;εt ,εt—1,… ,εt—q是预测误差;θ1,θ2,…,θq是移动平均系数;Δd是d阶差分后的时间序列。
1.2 带外生变量的自回归积分滑动平均模型(ARIMAX)
基础时间序列模型不能很好地体现外生变量如天气、季节、节假日等因素对负荷序列的影响,因此本文在基础时间序列模型上进行扩展,利用ARIMAX模型来处理外生变量的影响,其可以表示为:
式中:yt是t时刻预测值;d表示差分阶数,即差分的次数(前文差分部分);exogtβ是外生变量矩阵,其中β是回归系数;εt是误差。
外生变量矩阵包含影响负荷序列的外生变量特征,这些特征信息并未包含在基础的 自回归积分滑动平均模型中。外生变量矩阵用于增强模型的预测能力和解释能力,其中每列代表一个外生变量,每行代表一个时间点。引入相关的外生变量能提高模型对序列波动的解释能力和预测精度。
2数据采集与预处理
严谨恰当的数据预处理和平稳性检查为后续的模型构建和预测的实现提供了有效完善的数据。
2.1 数据清洗
以下是数据清洗的主要方法:
1)缺失值处理。
(1)缺失比例较小(<5%):采用均值、中位数、众数填充法,其中,均值填充适用于数据服从正态分布的情况;中位数填充适用于数据偏态分布或存在离群值的情况;众数填充适用于分类数据。
(2)缺失比例适中 (5%~10%):采用K近邻插补,利用相似的数据样本来填充缺失值。
(3)缺失比例较高(>10%):需要重新考虑数据的质量和完整性,或者重新获取数据。
2)异常值处理。
异常值可能是数据录入错误或极端事件的结果,本文采用箱线法(四分位数法)作为异常值的处理方法,其原理如下:
箱线图主要利用数据的四分位数来识别异常值,有如下定义:
(1)第一四分位数Q1:数据中25%的数值位于此值之下;
(2)第三四分位数Q3:数据中75%的数值位于此值之下;
(3)四分位距IQR:其值等于Q3—Q1;
(4)异常值:超过Q3+1.5IQR(上须)或者低于Q1—1.5IQR(下须)的值。
在使用箱线法识别异常值时,计算第一四分位数、第三四分位数和四分位距以确定上下须的值,任何小于下须或大于上须的数值均被视为异常值,将这些异常值去除以优化数据的准确性,提高预测精度。
2.2 数据转换
数据转换是为了将原始数据转换成适合建模和分析的格式。本文对数据转换的主要步骤和方法如下:
1)数据标准化。数据标准化能提高模型的稳定性和预测性能,同时消除不同尺度对模型训练的影响,满足时间序列模型对平稳性的要求。本文采用Z—score标准化,将数据转换为均值为0、标准差为1的标准正态分布,公式如下:
式中:X是原始数据;μ是均值;σ是标准差。
2)数据时间分辨率的统一。数据时间分辨率统一是确保模型准确性的关键步骤,以下是其详细步骤:
(1)确定分辨率。电力负荷数据:本文收集的电力负荷数据频率为15 min。外生变量数据:本文收集的气象数据(温度、湿度等)频率为15 min。
(2)对齐数据时间戳。为确保所有数据源的时间戳对齐,特别是在合并数据集时,本文使用时间索引对数据进行重新索引,并处理缺失数据。
2.3ADF检验
扩展的迪基—富勒检验(Augmented Dickey—FullerTest),以下简称ADF检验,用于检验时间序列数据是否存在单位根,帮助判断数据是否需要进一步的差分处理以实现平稳化。
本文采用ADF检验模型中带常数项、时间趋势项及滞后项的形式,其具体模型如下:
式中:Δyt即yt—yt—1,表示时间序列Δyt的一阶差分;α是常数项;βt是时间趋势项;γyt—1是自回归项,用于检测单位根;Σpi=1∅iΔyt—i是滞后差分项的总和,用于处理自相关问题;εt是误差项。
式(7)表示通过观察当前值与前一个时间点值的变化量来确定时间序列是否平稳。
3模型构建
本文模型的构建主要在基础时间序列模型构建的基础上引入天气、季节、行业、节假日等外生变量,将基础的ARIMA模型拓展为ARIMAX模型,实现更精准的负荷序列的构建和预测。
3.1模型阶数选择
根据上述ARIMA模型构成和原理的阐述,当 自回归阶数为P时,PACF图在滞后P处截止;当移动平均阶数为q时,ACF图在滞后q处截止。本文在对模型平稳性检验时使用ADF检验单位根的方法,在差分的过程中使得模型逐渐平稳,差分阶数(d)即使得模型稳定的差分次数。
本文根据预处理后的负荷数据绘制ACF和PACF函数图,结合差分阶数初步得到多组模型阶数并分别拟合模型,在此基础上,采用BIC(贝叶斯信息准则)选取最优的模型阶数,以下是详细过程:
BIC的计算公式如下:
BIC=kln n—2lnL^ (8)
式中:n是样本量;k是模型的参数数量;L^是模型的似然函数的最大值。
样本量即参与模型拟合的负荷数据点的数量,参数数量即自回归系数、移动平均系数和一个常数项的数量之和,本文使用Python的statsmodels库来拟合ARIMA模型,并通过模型的fit方法获得似然函数的值,具体来说,在拟合过程中,会计算对数似然值,实际是模型在给定数据下拟合度的一个度量,对数似然值就是拟合过程中计算出的一个数值。
在计算得到样本量、参数数量、似然函数最大值之后,计算并比较所有候选模型的BIC值,BIC值越小,表示模型的拟合效果越好。模型训练过程中,使用滚动窗口预测,确保每个时间段均有新的数据更新,以更贴近实际预测效果。
3.2 外生变量特征提取
本文在ARIMAX模型中加入节假 日、季节和行业等外生变量,以捕捉外生因素对负荷变化的影响,从而提高模型预测的精度。
本文调用python中的中国节假日库,将节假日标记为一个虚拟变量,当日期为节假日时,变量取值为1,非节假日取值为0,模型根据该变量值应用对应的回归系数,对负荷预测进行上调或下调,从而体现节假日的作用。
为了更好地表达数据中的季节性周期波动,本文在时间序列中引入season—sin和season—cos特征量,这两个量分别通过正弦和余弦函数来表示季节性波动的不同相位,为模型提供更完整的周期性信息。
season_sin和season_cos的定义如下:
式中:day—of—year表示一年中的第几天,取值范围为1~365(闰年则为1~366)。
season—sin和season—cos的取值范围在—1到1之间,形成一个完整的圆形周期波动。模型为每个周期变量拟合出一个系数,代表负荷随着季节性周期的变化。例如,夏季的负荷用电需求较高,而春秋季则相对平稳,模型通过学习正弦和余弦变量与负荷的关系来拟合出这种季节性波动。季节变量的周期性值会作用于预测结果。本文使用python数据库生成季节性的周期函数以研究季节性变化对负荷序列的影响,同时对时间序列进行分解,如图1所示。
从图1时间序列分解图中可以看到原始负荷数据、季节性成分、趋势成分、残差成分四个部分,从中提取出原始的时间序列数据、数据中的长期趋势、数据中季节性波动、数据中未被趋势和季节性捕捉到的部分,更好地反映时间序列中各部分特征。
同样,本文为工业、商业和居民用电分别创建一个虚拟变量(0或1)标记,表示每个时间点上该负荷数据对应的行业,模型通过每个行业的虚拟变量自动学习该行业在负荷中的不同表现,工业类工作日负荷较高,而商业类负荷在夜晚和节假日更高。模型对各部分变量拟合对应的系数,表示各行业特殊的负荷趋势。
提取的各个外生变量特征以特征矩阵的方式引入ARIMAX模型,作为模型的外生变量矩阵构建负荷序列。
3.3模型参数估计
本文采用最大似然估计进行模型参数估计,包括自回归系数、差分项系数以及移动平均系数等,详细过程如下:
对于线性的时间序列模型ARIMAX,本文利用模型的参数以及观测数据的残差来构建似然函数。
对于ARIMAX模型,观测数据为Y={y1,y2,… ,yn},模型参数为θ(包括AR和MA系数),则似然函数L(θ;Y)表示在参数θ下观测数据Y的概率,在ARIMAX模型中,残差序列的分布为正态分布,即:et~N(0;σ2),et是模型的残差,σ2是残差的方差。似然函数的形式为:
式中:L(θ;Y)表示在参数θ下观测数据Y的概率;n是样本数量;et是模型的残差;σ2是残差的方差。
3.4模型验证
模型验证旨在确保构建的模型在实际应用中是有效的,能够准确地进行预测和推断。以下是模型验证的详细过程:
1)交叉验证。时间序列交叉验证用于评估模型在未见数据上的表现,同时考虑时间序列的时间依赖性。与传统的K折交叉验证不同,时间序列交叉验证需要遵循数据的时间顺序,以保持模型训练和测试的时序一致性。将数据集分成若干个子集,每个子集称为“折”。第一折:用前4个折(80%的数据)训练模型,用第5个折(20%的数据)进行验证。第二折:用第1、2、3、5折训练模型,用第4折验证。重复上述步骤,直到每个折都作为测试集一次。
2)预测准确性评估。主要通过计算均方误差、均方根误差、平均绝对误差等量化评估模型预测的准确性,以下是详细计算过程:
均方误差(MSE):计算预测值与实际值之间差异的平方的均值。
式中:n是样本量;yi是实际值;i是预测值;
MSE反映了预测值和实际值之间偏差的平方的平均水平。值越小,表示预测越准确。然而,由于平方的影响,MSE对较大的误差更加敏感。
均方根误差(RMSE):MSE的平方根。
RMSE直接反映了预测误差的实际单位。它比MSE更容易解释,因为它与数据的实际单位相同。与MSE类似,RMSE对较大的误差更敏感。
平均绝对误差(MAE):预测值与实际值之间差异的绝对值的均值。
MAE反映了预测误差的绝对大小,值越小表示预测越准确。与MSE和RMSE不同,MAE对异常值的敏感性较低。
R2 (决定系数):衡量模型解释方差的能力。
式中:y是实际值的平均值。
R2取值范围为0~1,值越接近1表示模型越好地解释了数据的变异性。
4 案例分析
本文以某地为对象,收集了该地两年15 min间隔的历史负荷数据、气象数据,进行月负荷序列建模和场景生成。具体来说,负荷数据包含了过去两年的每月负荷,而气象数据包括了每月的温度、湿度、风速和降水量等气象变量,另外考虑了季节、节假日、行业因素等外生变量来构建负荷序列模型,并生成了多种未来负荷场景,帮助进行新能源消纳能力的评估。
4.1场景生成
场景生成通过模型模拟不同情境下的负荷需求变化,为新能源消纳能力评估提供多种可能的负荷路径。使用ARIMAX模型,考虑外生因素对负荷的影响,得到符合实际情况的负荷预测场景。以下是基于ARIMAX模型进行月度负荷序列场景生成的详细过程。
构建的ARIMAX模型:
式中:yt是时间t的月度负荷预测值;μ是常数项,表示模型的偏移量;φi是自回归(AR)部分的参数;yt—i是时间序列在过去t—i时刻的观测值,用来捕捉自回归的依赖性;θj是滑动平均(MA)部分的参数;εt—j是在时间t—j时刻的残差,表示模型对过去的误差的依赖性;r表示外生变量的数量;βk是外生变量的回归系数;xt—k是外生变量在时间t—k时刻的观测值;St是误差项.
本文采用蒙特卡洛模拟方法通过大量的随机样本生成多个可能的负荷路径,在初始化负荷序列的基础上,假设误差项
t服从正态分布,根据这一假设,使用随机抽样生成误差项序列,通过ARIMAX模型公式,将新生成的误差项代入模型中,更新下一个时间点的负荷预测值:
通过多次重复上述过程,生成多个不同的负荷预测场景0在每次模拟中,外生变量(如温度、湿度等)和误差项的随机性将导致不同的负荷需求路径。
本实例中分别对四个季节的负荷序列进行情景分析和对比,同时对比节假日和非节假日的负荷序列情况0从图2~5的季节负荷序列变化中可以看到,夏季和冬季的月度负荷序列呈略高于春季和秋季月度负荷序列的趋势,同时单点的负荷不完全符合整体的变化趋势,反映其不仅受到季节的影响,还受到气象条件、节假日和行业因素的影响。
图6的负荷序列反映了特殊节假日前后的负荷序列变化,节假日前的负荷序列呈现增长趋势,而节假日后的负荷序列呈现下降趋势。
4.2 光伏消纳能力评估
图2~6对某地几个典型场景的光伏发电数据和负荷预测数据进行了拟合分析,下文将采用相关系数、均方根误差和光伏消纳率三个评估指标对光伏消纳能力进行评估。
相关系数r:
式中:xi是负荷功率;Yi是光伏功率;x-和Y-分别是负荷和光伏数据的均值。
均方根误差RMSE:
式中:xi是负荷功率;yi是光伏功率;n是数据点的个数。
光伏消纳率PVutilization:
式中:PV是光伏数据;Load是负荷数据。
计算得到的结果如表1所示。
由表1可知,春节、秋季负荷和光伏发电的同步性较好,拟合度相对较好,光伏发电能够满足一定比例的负荷需求;冬季负荷与光伏的同步性较弱,消纳能力较低;夏季负荷和光伏发电的同步性相对更好,消纳能力较强;节假日光伏发电与负荷的同步性较好,消纳能力适中。
总体而言,更精确的负荷功率预测能够帮助优化光伏发电的消纳能力,提高光伏电力的并网效益,有效协调光伏发电与负荷需求之间的匹配关系,减少光伏发电的弃光现象,并优化电网运行效率。
5 总结与展望
在负荷预测建模过程中,单纯的ARIMA模型虽然能捕捉到时间序列数据中的基本规律,但其预测准确性在面对复杂的外生因素时可能存在不足。因此,本文将ARIMA模型扩展为ARIMAX模型,结合了天气、季节、行业和节假日等外生变量,显著提高负荷预测的精度。这种综合考虑多种因素的建模方法为光伏消纳能力的精细化评估提供了更加准确和全面的负荷预测支持。
ARIMAX模型为光伏负荷预测提供了有效的方法,有望在光伏并网及电网稳定性分析中获得广泛应用。未来的研究应进一步拓展外生变量的来源与模型融合方式,以提升负荷预测的鲁棒性和准确性。
[参考文献]
[1] 邹兵.基于CNN—LSTM组合模型光伏预测和负荷预测算法的研究与应用[J].安全、健康和环境,2024,24(6):14—19.
[2]缪月森,夏红军,黄宁洁,等.基于Informer的负荷及光伏出力系数预测[J].综合智慧能源,2024,46(4):60—67.
[3] 商立群,李洪波,侯亚东,等.基于VMD—ISSA-KELM的短期光伏发电功率预测[J].电力系统保护与控制,2022,50(21):138—148.
[4] 文爽,马逸骋,孙志强.基于GWO-EEMD-BP神经网络的光伏发电功率短期预测 [J].中南大学学报(自然科学版),2022,S3(12):4799-4808.
[S] 汤德清,朱武,侯林超.基于CNN—LSTM—XGBoost模型的超短期光伏功率预测[J].电源技术,2022,46(9):1048—10S2.
[6]倪安安,王育飞,薛花.基于混沌特征改进鲸鱼优化算法—相关向量机的超短期光伏发电输出功率预测[J].现代电力,2021,38(3):268—276.
[7] AkhterMN,MekhilefS,MokhlisH,etal.Ahybrid deep learning method for an hour ahead power output for ecasting of three different photo voltaic systems[J].Applied Energy,2022,307: 11818S.
[8] LiQ,ZhangXY,MaTJ,et al.A multi—stepaheadphotovoltaic powerforecastingmodelbasedonTimeGAN,Soft DTW—based K—medoidsclustering,andaCNN—GRUhybridneuralnetwork[J].EnergyReports,2022,8:10346—10362.
[9] Sajjad M,Khan Z A,Ullah A,etal.AnovelCNN—GRU—based hybrid approachforshort—termresidentialloadforecasting[J].IEEEAccess,2020,8 :1437S9—143768.
《机电信息》2025年第19期第9篇





