基于稀疏化鲁棒LS-SVR与多目标优化的铁水硅含量软测量建模


今天跟大家分享一篇之前发表的文章,《基于稀疏化鲁棒LS-SVR与多目标优化的铁水硅含量软测量建模  》。


摘要:

针对高炉炼铁过程的关键工艺指标——铁水硅含量[Si]难以直接在线检测且化验过程滞后的问题,提出一种基于稀疏化鲁棒最小二乘支持向量机(R-S-LS-SVR)与多目标遗传参数优化的铁水[Si]动态软测量建模方法。首先,针对标准最小二乘支持向量机(LS-SVR)的拉格朗日乘子与误差项成正比导致最终解缺少稀疏性的问题,提取样本数据在特征空间映射集的极大无关组来实现训练样本集的稀疏化,降低建模的计算复杂度;其次,针对标准LS-SVR 的目标函数没有正则化项、鲁棒性差的问题,将IGGIII 权函数引入稀疏化后的S-LS-SVR 模型,进行鲁棒性改进,得到鲁棒性较强的R-S-LS-SVR 模型;最后,针对常规均方根误差评价模型性能的不足,提出从建模误差与估计趋势评价建模性能的多目标评价标。在此基础上,利用非支配排序的带有精英策略的多目标遗传算法(NSGA-II)优化R-S-LS-SVR 模型参数,从而获得具有最优参数的铁水[Si]在线软测量模型。工业试验及比较分析验证了所提方法的有效性和先进性。

关键词 鲁棒LS-SVR;稀疏建模;NSGA-II;多目标评价指标;硅含量


Soft-sensor Modeling of Silicon Content in Hot Metal Based on Sparse Robust LS-SVR and Multi-objective Optimization


ABSTRACT To solve the problem that the parameters of silicon content ([Si]) of hot mental is difficult to be detected directly and obtained by manual analysis, which brings large time delay, a method of sparse and robust least squares support vector regression (R-S-LS-SVR) is proposed to establish the dynamic modeling of [Si] with the help of multi-objective genetic optimization of model parameters. First, owing to the issue that the Lagrange multiplier of the standard least squares support vector machine (LS-SVR) is directly proportional to the error term, the maximal independent set of sample data in feature space mapping set is extracted to realize the sparse of training sample set and reduce the computational complexity of modeling; Next, in view of the problem that the standardLS-SVR has no regularization term, a method to improve the modeling robustness is proposed by introducing IGGIII weighting function into the obtained S-LS-SVR model; Last, the multi-objective evaluation index that synthesizes the modeling residue and the estimated trend is presented to compensate for the deficiency of the single RMSE index. Based on it, an on-line soft sensor model of the hot metal [Si] with the optimal parameters is obtained by using the multi-objective genetic algorithm (NSGA-II) with the non-dominated sort and elitist strategy. Industrial verification and analysis show that the the effectiveness and superiority of the proposed method.


高炉炼铁是钢铁生产中的重要单元,其作用就是将固态的铁矿石通过复杂高温、高压等物理化学变化和多相多场耦合效应,在焦炭、煤气等作用下还原成液态的铁水。如图1 所示,一个典型的高炉炼铁系统主要由高炉本体、上料系统、送风系统、高炉烟气净化系统、渣铁处理系统和喷吹燃料系统等组成[1]。由于炼铁高炉内部在高温、高压的条件下进行着复杂的气-固、气-液、固-固、固-液等多相转换,众多变量和参数之间错综复杂、相互耦合,被公认为是最复杂的逆流反应器。一直以来,高炉炼铁过程的建模、控制与优化是维持高炉稳定顺行、高产、优质、低耗的重要手段[1]。目前,由于测量手段的限制,反映铁水质量和高炉热状态的关键指标——硅含量([Si])的测量一般仍采用人工定期抽样化验的方式进行,由于人工检测的滞后性和不精确性,使得基于[Si]质量参数的高炉炉况判断和高炉操作异常困难。因此,实现优质、低耗的高炉运行优化与控制就必须实现铁水[Si]质量参数的在线估计或软测量。

高炉炼铁过程的上述复杂动态特性,使得用于铁水[Si]在线估计的机理模型不易建立。对于难以机理建模的复杂工业过程,数据驱动的智能建模和统计建模受到了越来越广泛的关注[2]。王义康等提出了基于混沌时间序列的铁水[Si]支持向量回归模型(SVR),在±0.1 误差内的命中率大88%,有较好的模型预测能力[3];Henrik Saxen建立了可实现周期性铁水[Si]预测的离散时间序列模型,将模型的线性部分与非线性部分分别处理,提高了模型的预测能力[4];唐贤伦建立了基于混沌粒子群优化的铁水硅含量SVR 预报模型,实现预测绝对误差小于0.03 的样本数占总测试样本数90%以上的效果[5]。在众多数据驱动建模方法中,SVR 凭借其在解决小样本、非线性及高维模式识别问题中的优势,得到了广泛的应用[6~11]。SVR有严格的数学基础,稳定的学习机制,能在很大程度上克服“维数灾难”和“过学习”问题[8~11]。现有的针对铁水[Si]的SVR 建模大多只是静态模型,忽略了高炉炼铁过程的动态特性和输入输出时序和时滞关系[8~9]。另外,由于采集于实际高炉工业过程的样本数据往往包含较大噪音,这样建立的SVR 模型鲁棒性较差,对噪音很敏感。为此,本文基于多目标参数优化技术,提出一种具有稀疏性和鲁棒性的改进最小二乘支持向量回归(LS-SVR)建模技术,用于对铁水[Si]进行动态软测量建模。首先,以LS-SVR为基础,通过提取样本数据在特征空间映射集的极大无关组来实现训练样本集的稀疏化,降低建模的计算复杂度[6,8];然后,将IGGIII权函数引入稀疏化后的S-LS-SVR 模型,得到鲁棒性较好的R-S-LS-SVR 模型;最后,针对常规均方根误差评价建模性能的不足,提出从建模误差与估计趋势综合评价建模性能的多目标评价指标。在此基础上,利用非支配排序的带有精英策略的多目标遗传算法(NSGA-II)优化R-S-LS-SVR 模型结构参数,从而获得最优参数的铁水[Si]在线估计模型。


R-S-LS-SVR建模算法

标准LS-SVR 通过引入等式约束替代经典SVR 的不等式约束,虽然使计算的复杂度大大降低,但同时也引入了两个潜在的问题:其一是目标函数中没有正则化项,对于数据中含有噪声、离群点以及误差不服从正态分布的情况导致缺乏鲁棒性;其二是由于支持向量所对应的拉格朗日乘子与误差项成正比导致最终的解缺少稀疏性。针对LS-SVR 的上述问题,提出同时兼顾鲁棒性和稀疏性的改进LS-SVR 算法,即R-S-LS-SVR。


标准LS-SVR算法



稀疏化改进


鲁棒改进

为了提高上述稀疏化LS-SVR,即S-LS-SVR 算法的鲁棒性能,对式(9)中的误差项i e 引入加权因子i n ,从而得到如下的优化问题:



引入拉格朗日算子之后可得


式中:a ÎRr为拉格朗日乘子,根据最优条件消去e,a 可得:


式中: 1 2 ( , ,..., ) r n= diagn n n ,n 由IGGIII权函数[9]决定,即:


式中:S 为误差的估计标准差, 1 2 k ,k 为相关系数,根据经验值有1 2 kÎ[1,3],kÎ[3.2,6]。

R-S-LS-SVR参数多目标遗传优化 (这儿就不详细的展开了,仅给出算法的流程图,有兴趣的可以单独跟我联系)


LS-SVR 经过上述稀疏化和鲁棒性改进后得到R-S-LS-SVR,它有两个结构参数需要确定,分别是决定离群点惩罚程度的正则项C和径向基核函数的伸缩量s 。常见的模型参数确定方法有网格搜索和交叉验证,但这些算法效率低且易陷入局优。本文将采用基于非支配排序的带有精英策略的多目标优化算法(NSGA-II)对C,s 进行优化计算,从而得到最终的NSGAII-R-S-LS-SVR 的模型。


工业实验与分析

实验使用两组测试数据,即Data 1和Data 2,如图3 所示。Data 1是经PCA降维处理后的270组实际现场采集的高炉数据,其中训练数据200组,测试数据70 组;Data 2是在Data 1中随机加入11 个离群点得到的数据。为了表述方便,我们称Data 1为原始数据,Data 2为离群点数据。具体实验时,为了更好地说明问题,将提出的NSGAII-R-S-LS-SVR 算法与标准LS-SVR 以及极限学习机(ELM)算法[13]进行比较,三者的训练和测试数据完全相同,并且都是在归一化之后导入模型。另外,采用一些标注指标对模型性能进行评价,这些指标包括:建模时间(MT)、均方根误差(RMSE)、平均绝对误差(MAE)、相对误差(RE)、回归系数(RC)、命中率(HR)。




多目标遗传参数优化时,C,s 经上述多目标遗传优化的Pareto 前沿进化过程如图4 所示。首先将上述三种算法针对Data 1(即未包含离群点的数据)进行训练,得到的模型对[Si]的估计效果如图5 和图6所示。从总的估计效果来看,针对没有加入离群点的原始数据建立的NSGAII-R-S-LS-SVR、LS-SVR、ELM 等铁水[Si]软测量模型似乎都可较好地跟踪原始数据的变化,具有较高的估计精度。但从局部细节来看,LS-SVR、ELM的数据波动较大,相比之下NSGAII-R-S-LS-SVR 估计误差概率密度函数(PDF)曲线对称轴更加逼近于中轴,估计误差自相关曲线更接近白噪声,因而估计效果更好、泛化能力更强。表1 给出了三种算法建立的模型对铁水[Si]估计性能指标的定量统计分析结果,可以看出所提NSGAII-R-S-LS-SVR 的均方根误差和8平均绝对误差最小,训练时间较LS-SVR缩短48.76%,[Si]估计误差不超过±0.1的命中率达92.86%。因此,所提方法稀疏化带来的估计精度效果显著。



实际生产中,数据总会不同程度受到噪声等外界干扰[14,15],若在常规数据建模时将这些离群点考虑进去会严重的影响建模效果以及模型的泛化能力。为了验证所提NSGAII-R-S-LS-SVR建模算法对数据离群点的鲁棒性能,仍采用NSGAII-R-S-LS-SVR、LS-SVR、ELM 三种算法针对Data 2(即包含离群点的数据)重新进行建模和比较分析,得到的铁水[Si]估计效果如图7-图9 所示。可以看出,当训练数据有离群点存在时,LS-SVR 和ELM 算法所建立的软测量模型的实际估计效果很差,基本不能跟踪实际数据的变化;而所提NSGAII-R-S-LS-SVR 算法建立的模型对铁水[Si]的估计效果仍然很好,能够很好地跟踪其实际值的变化。由图8 可以看出,LS-SVR和ELM模型的估计误差PDF曲线延伸范围大,左右很不对称,它们的估计误差自10相关曲线虽然形状与白噪声相近,但是振幅较大且偏离零中心线,而NSGAII-R-S-LS-SVR所建立的模型的估计误差PDF 曲线延伸范围小,并且是对称、零均值的。由表2 可知,对于离群点数据的建模,所提NSGAII-R-S-LS-SVR模型对实际数据估计的均方根误差最小,平均绝对误差较LS-SVR提高58.57%,较ELM提高81.23%,回归系数更加逼近理想值1;命中率达到91.43%,相比原始数据92.86%的命中率,下降波动仅1.43%,因而相对鲁棒性较强。


结论

⑴ 针对机理建模难以准确估计铁水硅含量的难题,利用数据驱动建模的思想,提出一种基于模型精度多目标评价与多目标遗传参数优化的稀疏鲁棒最小二乘支持向量机算法,用于对铁水硅含量进行动态软测量。

⑵ 对某大型钢铁厂的实际采集数据进行实验的结果表明所提方法具有良好的估计效果。与LS-SVR 和ELM 相比,所提方法铁水硅含量估计误差小于±0.1的样本数占测试样本数的90%以上,具有建模时间短、对离群点的鲁棒性强的优势,可用于高炉铁水的实际在线估计。



个人资料
时海
等级:8
文章:272篇
访问:16.0w
排名: 2
上一篇: 白话经典算法系列之七 堆与堆排序
下一篇:python: sort, sorted, reverse
猜你感兴趣的圈子:
机器学习算法与Python学习
标签: svr、ls、铁水、高炉、si、面试题
隐藏