【综述】

核极限学习机的在线状态预测方法综述

戴金玲1,吴明辉1,2,刘 星1,李睿峰3

(1.海军航空大学, 山东 烟台 264001; 2.杭州声学应用研究所, 浙江 杭州 310000; 3.中国人民解放军92932部队, 广东 湛江 524000)

摘要:对非平稳混沌时间序列进行在线预测是当前科学和工程领域中的一个重要研究方向,核极限学习机(kernel extreme learning machine,KELM)为其提供了一种有效的数学模型。由于学习速度快、泛化性能好,在线贯序核极限学习机(online sequential KELM,OSKELM)在状态预测中得到了广泛的研究与扩展。首先,描述了问题并介绍了OSKELM的数学模型;然后,以混沌时间序列为应用背景,对基于OSKELM的各种改进方法进行了分类综述,包括基于数据增量的OSKELM、基于稀疏字典的OSKELM、基于参数寻优和遗忘因子的OSKELM以及其他方法,并对算法性能进行比较和分析;最后总结并讨论了该方法的未来研究方向。

关键词:核极限学习机;状态预测;遗忘因子;时变正则化因子;稀疏字典

近几十年来,时间序列预测得到了深入的讨论与研究,并在容错分析、状态预测、状态监测和故障诊断等科学领域中发挥着重要作用[1]。时间序列预测的关键在于建立一个具有相应结构和参数的模型来描述真实系统的动态行为,目前已有大量的研究成果,比如反向传播神经网络(back-propagation neutral network,BP-NN)[2]、支持向量机(support vector machine,SVM)[3]、最小二乘支持向量机(least square SVM,LSSVM)、近端支持向量机(proximal SVM,PSVM)[4]、极限支持向量机(extreme SVM,ESVM)[5]以及极限学习机(ELM)等方法[6-11]。然而,在许多实际应用中,当一个新的数据到达时,以上将新旧数据收集在一起进行再训练、以合并新样本信息的方法不仅会导致额外的存储消耗,同时使学习时间变得越来越长,因此需要在线的、自适应的实时操作。针对这一特点,学者们提出了大量在线顺序学习算法[12-16],其中在线贯序极限学习机(online sequential ELM,OS-ELM)[17]根据其快速的学习速度和出色的泛化能力,能够准确且高效地实现数据样本的在线增量学习[18-20],在众多方法中脱颖而出,并且成为了时间序列预测领域的主流方法。

尽管OS-ELM具有诸多优点,但需要确定隐含层个数的问题依然存在[21],选择隐式映射的核方法则有效地解决了这一问题。相比ELM,KELM不仅避免了维数灾难的问题,还改善了隐藏神经元随机赋值带来的泛化性和稳定性下降,在非线性系统的故障识别和时间序列预测等领域展现了良好的应用价值和发展潜力[22]。因此,基于KELM的在线学习算法逐渐受到了人们的重视与应用。

毫无疑问KELM在线应用的研究是一项非常有意义的工作。自基于核增量的极限学习机(kernel based incremental ELM,KB-IELM)在2014年被提出[23]、将KELM扩展到在线应用中,验证了其优于OS-ELM的性能与速度,OSKELM开始得到不断的关注与研究。近年来的理论研究主要围绕KB-IELM产生的2个问题进行:① 如何抑制模型膨胀;② 如何跟踪系统的动态变化,取得了一批有意义的研究成果[24-52],并且在非平稳时间序列的预测中得到了广泛的应用。本文旨在对这些研究成果进行分归纳、分类、比较与总结:首先简要描述问题和介绍OSKELM的数学模型;针对KELM在线应用中的2个主要问题,对各种改进算法进行分类综述;然后将各改进算法的性能效果进行比较与分析;最后总结展望了该方向的未来发展前景。

1 OSKELM的问题描述与数学模型

1.1 KELM数学模型

KELM是OSKELM的理论基础。假设S={(x1y1),(x2y2),…}是一组观测时间序列,xiRdd维输入向量,yiR为对应输出值,将满足等式约束条件的极限学习机优化问题定义为:

(1)

其中, β=[β1β2,…,βn]T表示连接隐含层与输出层的输出权值; h(xi)=[h1(xi),h2(xi),…,hL(xi)]表示隐层神经元与输入样本的映射关系; yi表示输入样本xi对应的实际输出值; ξi表示样本xi的输出误差值;C表示正则化因子,也称为惩罚因子。

由KKT优化条件,可得式(1)输出权值βn的计算公式如式(2)所示,其中输入样本的映射矩阵为H=[hT(x1),hT(x2),…,hT(xn)]Tyn=[y1y2,…,yn]。

βn=HT(C-1I+HHT)-1yn

(2)

根据Mercer条件定义核矩阵为Ω=HHTΩ(ij)=h(xi)hT(xj)=k(xixj)。因此,KELM的输出形式则可以表示为式(3)所示,其中kn=[k(·,x1),k(·,x2),…,k(·,xn)],表示n时刻的核估计向量, θn=(C-1I+HHT)-1yn表示核权重系数。

f(·)=hT(x)βn=h(·)HT(C-1I+HHT)-1yn=

[k(·,x1),k(·,x2),…,k(·,xn)]·

(C-1I+HHT)-1yn=knθn

(3)

1.2 OSKELM

在OSKELM中,令An=C-1I+HHT,则核权重向量为:

(4)

对于n+1时刻的新观测数据(xn+1yn+1),进一步令

(5)

其中,kn=[k(x1xn+1),…,k(xnxn+1)]Tvn=C-1+k(xn+1xn+1)。根据块矩阵求逆公式,矩阵An+1的逆矩阵可以表示如下形式:

(6)

式中,此时核函数系数向量通过式(7)实现递推更新。

(7)

由上可见,不同于传统的将新旧样本收集在一起再重新训练,当新样本来临时,KB-IELM方法通过更新矩阵An来吸收新样本信息,更新过程由上一时刻的参数矩阵An与新样本(xn+1yn+1)来完成,且更新之后将不再需要旧的样本集信息,这种方法极大地降低了计算复杂度,提高了效率。与此同时,由于KB-IELM学习了所有的样本数据,其模型阶数与训练样本数相等,从而产生2个问题:① 算法面临过度拟合的风险;② 计算成本随之超线性增加。为解决该问题,跟踪系统实时动态,放弃冗余信息,选择价值更高的样本去构造并更新模型,成为了新的研究方向。

2 改进的OSKELM算法

在时间序列在线预测的现实应用中,时间序列样本以数据流的形式贯序到达,目标系统的实时动态随着不断改变,这就要求模型在获得新样本信息的同时,及时消除过时或者失效的样本对于系统的影响。在线稀疏化可以有效解决模型膨胀的问题,追踪系统的动态变化。随着研究的深入,KELM模型的稀疏化方法和追踪系统动态方面产生了很多研究成果。本节以KB-IELM为基础,基于在线学习理论,从OSKELM的在线稀疏化与跟踪非线性系统时变动态特征2个角度出发,对改进的OSKELM算法进行总结分析,如图1所示,将改进OSKELM算法归纳为以下几类方法:基于滑动时间窗的OSKELM算法、基于稀疏测度的OSKELM算法、基于参数寻优的OSKELM算法、基于遗忘因子的OSKELM算法、基于多变量的OSKELM算法以及其他方法。

图1 改进的OSKELM算法分类框图

2.1 基于稀疏化方法的OSKELM

目前,已有很多针对OSKELM的稀疏化策略[24-31,42-47],主要分为两类:一是基于滑动时间窗的稀疏化策略;二是基于稀疏测度来量化样本的重要性。二者相同之处是,当滑动时间窗移动或稀疏字典变化时,都会相应的递推更新核权重系数,以得到更好的预测结果。不同点在于,作为传统与直观的方法,滑动时间窗通过[24-27]研究一定数量的最新样本来获取系统的最新性质,并基于此对未来趋势进行预测,其主要流程为:每当一个新样本到达,则删除一个距离最远的旧样本,从而去除旧样本对模型的影响。然而简单粗暴的直接删除旧样本,有可能错误地删除了某些影响较大的样本,因此建立一个固定规模的稀疏字典[28-34,45-47],通过一定的准则判定样本的价值并决定是否吸收,成为了研究稀疏化策略的另一个方向。

2.1.1 滑动时间窗

在对系统使用在线时间序列学习算法进行学习的过程中,抛弃那些效果较差或过时的训练样本,不仅可以减小旧样本对模型可能产生的误导作用,还能阻止模型无限膨胀。文献[24]基于传统滑动时间窗,提出了带有遗忘机制的OSKELM算法(online KELM with forgetting mechanism,FOKELM),该方法通过对样本的逐个添加与删除样本来调整输出权值,即依次学习和忘记样本,通过固定规模的时间窗对新样本进行预测,其网络结构的大小是固定的,如图2所示。

图2 滑动时间窗策略示意图

滑动时间窗克服了矩阵展开的问题,在时变系统辨识的稳定性和计算复杂度等方面均优于KB-IELM。同时可见,添加与删除样本的过程依然具有一定的算法复杂度,针对这一点,文献[25]提出了Cholesky因式分解的FOKELM(cholesky factorization based FOKELM,CF-FOKELM),将在线训练过程中涉及矩阵变换的进行Cholesky因子的递推计算,进一步提高了计算效率;文献[26]则将滑动时间窗与小波滤波方法结合,以实现实时煅烧温度的实时滤波与单步预测。显然,通过滑动时间窗内的样本构造字典,模型的复杂度和泛化性能均与时间窗宽度有关。在静态应用学习中,固定时间窗宽度是很好的选择,然而很多情况和应用是快速变化的,对新旧样本一视同仁也是不合理、不准确的,因此文献[27]中提出了一种改进的带遗忘机制的OSKELM,可以根据预测误差自动改变滑动窗口的大小。滑动时间窗宽度的自动确定避免了人为干扰,节省了训练时间,并且具有较好的鲁棒性。

2.1.2 稀疏字典

滑动时间窗将窗内的所有样本重要性视为相同,并且将一定时间距离的样本直接舍弃。然而,在时变与非平稳环境中,样本的重要性主要决定于时间序列的内在结构,新样本并不一定对现阶段模型的影响为最大。因此,文献[28]采用了近似线性独立(approximate linear dependency,ALD)准则来作为衡量样本重要性的标准,给定一个固定阈值δ,将新样本在特征空间与稀疏字典的线性范围的距离与该阈值进行比较:

(8)

其中ΩDic是可以有效估计的仅限于字典的核矩阵。距离越大说明新样本与字典成员的相似度越低,那么样本越有价值,即当式(8)成立时,则字典吸收该样本。ALD准则不限定稀疏字典的规模,只要符合条件就吸收样本,因此字典规模与算法复杂度均依赖于阈值的选取。

容易看出,上述稀疏化方法虽然具有较低的复杂度,但是阈值的选择依然具有主观性;因此文献[29,42]和文献[30]分别基于瞬时信息测量和积累一致性提出“构造”与 “修剪”相结合的稀疏化方法,通过最大化字典瞬时信息量以及最小化积累一致性,以达到最大化字典信息量为原则,自适应的选择字典成员。其主要思想是,假设n时刻的字典规模为m,在字典加入新样本(xn+1yn+1)后的集合中找出需要删减的元素。在瞬时信息原则下,当字典每个成员的瞬时条件自信息量越大,说明成员的相似性越小,则字典含有的信息越多,将删除第i个关键节点后剩余节点具有的瞬时条件自信息量记为那么要删除的节点索引可以通过下面的公式确定:

(9)

相反的,积累一致性越小,说明字典元素间相似性越小。将删除第i个关键节点后剩余节点的积累一致性记为那么删除节点的索引为

(10)

这种无监督的方法,不用预先定义稀疏参数,只需要选择稀疏字典的规模大小,在学习有用信息的同时,保证了模型的简洁。但是显然的,这种方法也额外增加了每个步骤中信息量的计算过程,而快速留一交叉验证(fast leave-one-out cross-validation,FLOO-CV)方法[31-34,45-47],则有效避免了以上两者的短处。FLOO-CV依然以字典成员相似性最小为原则,但新样本加入稀疏字典的条件是预测误差大于字典平均泛化误差。具体流程是,假设n时刻的字典规模为m,FLOO-CV方法根据实时字典计算每个关键点的FLOO-CV误差:

(11)

表示n时刻字典的泛化误差向量信息,可得字典的平均泛化误差将其与n+1时刻的样本预测误差作比较,即判断是否成立,若成立,则将新样本作为有价值的样本加入字典关键点,并剔除字典中泛化误差最小的样本,其索引为

(12)

若不成立,则字典保持不变。由上可见,该方法一方面无需先验知识、根据系统自适应调整误差阈值,从而决定是否吸收新样本;另一方面没有引入额外的参数计算量,因此得到了广泛的应用。

2.2 基于参数寻优的OSKELM

以上方法虽然有效解决了图1中的第一个问题,但是第二个问题还没有得到彻底的解决。为了能够更好的追踪时变系统动态特征,参数寻优成为了下一步研究的方向。参数寻优可以分为两类,一类是自适应正则化因子,其数值会根据训练步骤而发生实时变化;另一类则是模型参数的优化,主要为正则化因子和核参数的联合优化过程。

2.2.1 自适应正则化因子

非平稳时间序列的分布和变化趋势随着时间不断发生变化,要求模型考虑系统建模过程中的经验风险和结构风险。一般OSKELM可以通过正则化来控制结构风险,以平衡经验风险。值得注意的是,时变系统的结构风险也会随着区域的变化而变化,因此采用一个固定的正则化因子不足以充分描述系统的动态特性。为了进一步提高方法的有效性,文献[32-34]提出了一种可以随时变系统变化而自适应变化的正则化因子(adaptive regulation factor,ARF)。

自适应正则化方案主要流程:在OSKELM模型上构造一个新的目标函数,使得每一个训练步骤,为新加入稀疏字典的样本寻找到最优的正则化因子。损失函数是衡量系统结构风险的一个重要指标,因此文献[32-33]将损失函数作为目标函数:

(13)

通过计算损失函数对于正则化因子的梯度,得到受正则化参数影响的2个系数函数,并建立动态学习率来保证算法的稳定性和收敛性,在稳定收敛的前提下,根据系数函数得到新插入样本对应的正则化因子。事实上也证明,采用稀疏字典与自适应正则化因子相结合的OSKELM,比仅采用稀疏字典的方法具有更高的建模精度、更快的收敛速度和更好的稳定性。文献[34]采用了相同的损失函数,但正则化因子的寻优过程采用了天牛须算法,该方法相比计算梯度和动态学习率的寻优过程,显示出更优的性能效果。

2.2.2 核参数优化

一般的参数初始化都采用随机赋值、或者经验赋值,然后通过网格搜索法找到效果相对最优的参数值。这种方法不仅耗时耗力,还不能确保所找参数值为最优。基于以上不足,文献[35-44]通过了KELM方法与其他一系列方法相结合来完成正则化因子和核参数的寻优过程。其中,粒子群算法(particle swarm optimization,PSO)是应用最多的一种参数寻优辅助方法[35-36,39];此外,改进的头脑风暴优化方法(improved brain storm optimization,IBSO)[37]、萤火虫算法(firefly algorithm,FA)[38]、重力搜索算法(gravitational search algorithm,GSA)[40]在参数寻优方面也得到了应用。OSKELM的核参数和正则化因子是影响预测性能的2个重要因素,经过了参数优化的模型,在电力预测、交通数据预测、医学诊断等方面[40-44]都得到了广泛的应用和较好的性能。

2.3 基于遗忘因子的OSKELM

总结以上方法的共同点,都将纳入模型的所有有效样本视为相同价值。然而,时变系统的行为常常随着时间变化而改变,新的数据样本相比旧样本应当具有更大价值,对所有样本“权重均衡”的做法显然是不合理的。对于时间越近的样本,有必要在建模时赋予更大的参考价值。遗忘因子[45-47]的引入可以时使字典内时间更近的样本在模型中具有更大的权重,很好的解决了这一问题。

2.3.1 遗忘因子

遗忘因子(forgetting factor,FF)的核心思想是根据数据样本到达的时间次序赋予不同的权值,其主要实现过程如下。假设一组如1.1节所示的数据流,则具有遗忘因子的ELM优化问题可定义为[34,45-46]

(14)

式(14)与式(1)不同之处在于引入了参数为λ的遗忘因子,且0≤λ<1。求解上式可得输出权重为βn=HT(C-1λnB-1+HHT)-1yn,其中B=diag{λn-1λn-2,…,1}。进一步令An=C-1λnB-1+HHT,则核权重向量可表示为式(4)所示。此时具有遗忘因子的KELM输出形式如式(3)所示。

遗忘因子的引入考虑了各个样本的时间差异性,实现字典中的样本具有不同的权重分布。相比未加入遗忘因子的方法,遗忘因子的应用使得训练时间进一步缩短,预测精度与稳定性也得到了较大的提升。

2.3.2 自适应遗忘因子

考虑复杂时变环境下数据流的变化速率可能是不规律的,这种情况下固定的遗忘因子不能确保对时变系统的动态变化有全局自适应性,因此有必要引入自适应的遗忘因子(Adaptive FF,AFF)[47]。当系统变化较快时,预测误差将增大,遗忘因子应相应减小以加速遗忘旧的失效状态并及时跟踪时变系统的最新状态;而当系统变化较慢或趋于平稳时,随着预测误差的降低,遗忘因子应相应增大以提高系统在稳态下的预测精度。AFF的应用过程如下:

定义n时刻的遗忘因子为参数λn, 0<<λn<1,且λn随时间变化进行自适应调整。则融入AFF的KELM可定义为:

(15)

那么输出权重可以表示为β=HT(C-1λnB-1 + HHT) - 1yn,其中。进一步令An=C-1λnB-1 +HHT,再根据式(4)和式(3)得到核权重向量与输出形式。

根据定义,AFF的取值应与相对误差有关。首先定义一个关于相对误差的中间变量φn

(16)

其中0<<μ1<1为误差平衡系数,主要用于控制2个值的比重; 0<μ2<<1为误差敏感系数,主要用于控制φn趋近于0的速率,当系统收敛误差较大时, μ2的取值相对较小,反之亦然。同时μ1+μ2<1以确保φn在收敛后期的单调下降特性。

φn为基础,AFF可按式(17)进行更新计算。其中0.9<<λ+≤1表示AFF的上限,0<<λ-<1表示遗忘因子的下限,取值与具体问题相关,但不宜过小以免产生系统的不稳定。

λn=

(17)

实验验证[47]了AFF同时兼具环境在非平稳状态时的快速跟踪能力、和环境在平稳状态下的持续学习能力,相比固定FF,在少量增加计算量的前提下具有更强的系统追踪能力。

2.4 其他方法

2.4.1 多变量预测

当预测模型包含多个变量时,可见上述模型均基于变量自身历史时间序列信息进行在线预测。事实上,一个系统的各变量常常相互影响,因此对变量预测不仅要考虑变量本身的历史状态,也要考虑相关变量的状态。由于各个变量时间序列的在线预测所选择的稀疏字典有一定差异,人们常以多变量为输入、某一单变量为输出进行实验[47-50]

通过设置时间延迟和嵌入维度,将多变量进行相空间重构,可使变量间的时间相关性转换成空间相关性,从而对其中一个单变量进行预测。其实现过程为:假设一个M维多变量时间序列{X1X2,…,XN},其中Xi=(x1,ix1,i,…,xMi),i=1,2,…,N。通过相空间重构可得输入向量:

vn=[x1,nx1,n-τ1,…,x1,n-(d1-1)τ1

x2,nx2,n-τ1,…,x2,n-(d1-1)τ1,…,

xMnxMn-τ1,…,xMn-(d1-1)τ1]

(18)

其中τidi分别表示延迟时间和嵌入维度,i=1,…,M,多变量时间序列输出为yn=[y1ny2n,…,yMn],则维度为i时的预测输出值为yin=xi(n+1)=fi(v(n)),由式(3)可得。确定τidi后,重构相空间内的输入向量即可用于建模预测。通过多个实例应用可见,相比单变量预测,多变量输入在付出极少时间代价的前提下,的确具有更好的性能效果。

2.4.2 组合方法

除了以上的方法,学者们还将OSKELM与一些方法相组合以改进算法的性能,如与支持向量机和小波变换[51]、递归多步算法和漂移检测器机制[52]等,以实现时间序列的预测。这种方法的融合满足了时变系统对某些特定预测任务的需求,有效解决了特定问题,但其一般应用性有待验证。

3 算法比较与分析

在实际的OSKELM改进算法中,为了有效提高图1所示的2种能力,大多数同时应用了稀疏化方法和追踪系统时变状态的方法。根据改进算法追求目标的区别,本节将按分类对各种改进算法进行比较与分析。

1) 从算法复杂度角度,相比滑动时间窗,稀疏字典增加了了决定是否吸收新样本、以及选择所要删除样本索引的步骤,所以具有更高的算法复杂度;稀疏字典中,随着吸收新样本的判定准则提高,复杂度也随之上升,因此固定阈值的 ALD准则复杂度为最低;瞬时信息量和积累一致性由于引入了额外的参数与计算量,其复杂度要高于FLOO-CV方法。在追踪时变系统动态特征的方法中,参数寻优类方法由于引入了额外的计算量,其复杂度大于遗忘因子;其中具有自适应变化功能的因子,算法复杂度也相应更高。

2) 从预测精度角度,滑动时间窗由于流程固定,不能实时根据样本价值吸收新样本,因此预测精度低于稀疏字典;ALD准则根据固定阈值不限制字典大小地吸收了重要样本,因此具有较好的预测效果,但与固定规模的稀疏字典相比时,效果则取决于固定规模的大小。在观察系统动态变化特征方面,遗忘因子拥有比参数寻优更高的追踪能力;不难看出,加入自适应变化的方法也比固定因子精确度更高。

3) 从稳定性的角度,除了ALD准则中具有规模不固定所带来的模型过大风险,滑动时间窗与其他稀疏字典中的样本规模固定,均有较好的稳定性。此外,用于追踪动态特征的自适应因子也在一定程度上提高了系统稳定性。

4) 从应用范围的角度,滑动时间窗与参数寻优方法既适用于单个样本的逐一学习,也可应用于样本块的批量学习,对于时效要求相对较低;而稀疏字典和遗忘因子则更多地应用于单个时间序列的学习,因此更加适用于对时效性要求高的预测问题。

4 结论

非平稳时间序列的在线预测作为一个研究热点,在KELM领域得到了广泛关注和应用。本文以OSKELM为基本算法,针对各种改进的算法,从抑制模型膨胀和追踪系统时变特征2个方面进行了分类和总结,并分别从算法复杂度、精确度、稳定性和应用范围等4个性能效果进行了比较与分析。

OSKELM在稀疏化和追踪系统时变特征方面已经得到了较为全面的研究与改进,分析以上研究成果,还有以下问题值得进一步研究:

1) 算法复杂度分析。在改进的OSKELM算法中,一般的稀疏化方法虽然提高了预测精度,但是都在一定程度上增加了算法复杂度,从而导致预测时间的增长。如何在提高预测性能的前提下控制算法的简洁性是进一步研究的课题。

2) 稳定性分析。在时变环境下,固定遗忘因子的加入显然提高了预测模型追踪时变系统动态性能的能力,而自适应遗忘因子则在固定遗忘因子的基础上进一步提高了模型的全局自适应性,但与此同时算法所需确定的参数也有所增加,这对于稳定性的提高是不利的。因此,寻找一种可以快速确定自适应遗忘因子中参数的方法非常必要。

3) 核函数分析。以上改进的方法中,主要从算法的各个参数寻优出发,参考OSELM的改进算法,算法的改进还可考虑样本加权的角度;此外,所有改进算法中均已设定了核函数,而核函数的种类是较多的,如何选择核函数也具有较大的研究价值。

参考文献:

[1] GU B,LIU F,TIAN Z,YANG L,et al.Electric vehicle air conditioning system performance prediction based on artificial neural network[J].Applied Thermal Engineering,2015,89(06):101-114.

[2] TETI R,D'ADDONA D.Intelligent classification of neural network models for mild steel behavior in hot forming[C]//Proceedings of the Institution of Mechanical Engineers,2004,218(06):619-630.

[3] SAPANKEVYCH N,SANKAR R.Time Series Prediction Using Support Vector Machines:A Survey[J].Computational Intelligence Magazine IEEE,2009,4(02):24-38.

[4] FUNG G M,MANGASARIAN O L.Proximal Support Vector Machine Classifiers[J].Machine Learning,2005,59(01):77-97.

[5] LIU Q,HE Q,SHI Z Z.Extreme support vector machine classifier,in:Advances in Knowledge Discovery and Data Mining[J].Lecture Notes in Computer Science,2008,50(12):222-233.

[6] HUANG G B,ZHU Q Y,SIEW C K.Extreme Learning Machine:Theory and Applications[J].Neurocomputing,2005,70(01):489-501.

[7] JIANG Y C,YIN S,KAYNAK O.Data-driven monitoring and safety control of industrial cyber-physical systems basics[J].IEEE Access,2018(06):47374-47384.

[8] YIN S,ANDINA J J and JIANG Y C.Real-time monitoring and control of industrial cyberphysical systems with integrated plant-wide monitoring and control framework[J].IEEE Industrial Electronics Magazine,2019,13(04):38-47.

[9] YIN S,JIANG Y C,TIAN Y,et al.A data-driven fuzzy information granulation approach for freight volume forecasting[J].IEEE Transactions on Industrial Electronics,2017,64(02):1447-1456.

[10] 薛正爱,黄陈蓉,张建德,等.基于小波变换和极限学习机的电能质量扰动分类[J].电工技术,2020(15):41-43.

[11] HUANG G B,CHEN L and SIEW C K.Universal approximation using incremental constructive feedforward networks with random hidden nodes[J].IEEE Transactions on Neural Networks,2006,17(04):879-892.

[12] HUANG G B,SARATCHANDRAN P,SUNDARARAJAN N,et al.A generalized growing and pruning RBF (GGAP-RBF) neural network for function approximation[J].IEEE Trans.Neural Networks,2005,16(01):57-67.

[13] LIANG N Y,Huang G B,SARATCHANDRAN P,et al.A fast and accurate on-line sequential learning algorithm for feedforward networks[J].IEEE Trans.Neural Networks,2006,17(06):1411-1423.

[14] SYED N,LIU H,SUNG K.Incremental learning with support vector machines[C]//Proc of the Workshop on Support Vector Machines at the International Joint Conference on Artificial Intelligence (IJCAI-99),1999.

[15] RUPING S.Incremental learning with support vector machines[C]//Proc of the IEEE International Conference on Data Mining,2001:641-642.

[16] ESPINOZA M,SUYKENS J A K,MOOR B D.Fixed-size least squares support vector machines:a large scale application in electrical load forecasting[J].Comput.Manage.Sci.Spec.Issue Support Vector Mach,2006,2(03):113-129.

[17] 徐睿,梁循,齐金山,等.极限学习机前沿进展与趋势[J/OL].计算机学报,2019,42(13):1-32.

[18] 郭威,于建江,汤克明,等.动态数据流分析的在线超限学习算法综述[J].计算机科学,2019,46(04):1-7.

[19] 周剑敏,胡海刚,钱云霞.WSN中利用广义学习自动机和休眠机制的部分覆盖方法[J].重庆理工大学学报(自然科学),2019,33(11):121-129.

[20] 卢诚波,梅颖.前馈网络的一种高精度鲁棒在线贯序学习算法[J].上海交通大学学报,2015,49(08):1137-1143.

[21] HUANG S,WANG B T,QIU J,et al.Parallel ensemble of online sequential extreme learning machine based on MapReduce[J].Neurocomputing,2016(04):174:352-367.

[22] WANG X Y,HAN M.Online sequential extreme learning machine with kernels for nonstationary time series prediction[J].Neurocomputing,2014,145(05):90-97.

[23] GUO L,J.HAO H,LIU M.An incremental extreme learning machine for online sequential learning problems[J].Neurocomputing,2014,128(27):50-58.

[24] ZHOU X R,LIU Z J,ZHU C X.Online regularized and kernelized extreme learning machines with forgetting mechanism[J].Mathematical Problems in Engineering,2014(02):1-11.

[25] ZHOU X R,WANG C S.Cholesky factorization based online regularized and kernelized extreme learning machines with forgetting mechanism[J].Neurocomputing,2016,174(22):1147-1155.

[26] LU S Z,YU H L,DONG H J,et al.Single-step prediction method of burning zone temperature based on real-time wavelet filtering and KELM[J].Engineering Applications of Artificial Intelligence the International Journal of Intelligent Real Time Automation,2018,70(11):142-148.

[27] ZHANG H,ZHANG S,YIN Y.Kernel online sequential ELM algorithm with sliding window subject to time-varying environments[J].Memetic Computing,2018(10):1-3.

[28] SCARDAPANE S,COMMINIELLO D,SCAROINITI M,et al.Online Sequential Extreme Learning Machine with Kernels[J].IEEE Trans Neural Netw Learn Syst,2014,26(09):2214-2220.

[29] 张伟,许爱强,高明哲.基于稀疏核增量超限学习机的机载设备在线状态预测[J].北京航空航天大学学报,2017,43(10):2089-2098.

[30] 张伟,许爱强,高明哲.一种基于积累一致性测量的在线状态预测算法[J].上海交通大学学报,2017,51(11):1391-1398.

[31] 张英堂,马超,李志宁,等.基于快速留一交叉验证的核极限学习机在线建模[J].上海交通大学学报,2014(05):641-646.

[32] 张伟,许爱强,平殿发.基于稀疏化核方法的非线性动态系统在线辨识[J].系统工程与电子技术,2017(39):223-230.

[33] ZHANG W,XU A Q,PING D F,et al.An improved kernel-based incremental extreme learning machine with fixed budget for nonstationary time series prediction[J].Neural Computing and Applications,2019,31(06):637-652.

[34] 刘星,熊厚情,赵建印,等.基于改进稀疏KELM的在线非平稳动态系统状态预测方法[J].系统工程与电子技术,2019(11):101-106.

[35] ZHENG X,LAI W,CHEN H,et al.A Study of Cellular Traffic Data Prediction by Kernel ELM with Parameter Optimization[J].Applied Sciences,2020,10(10):3517-3532.

[36] ZHOU Z Y,CHEN J,ZHU Z F.Regularization incremental extreme learning machine with random reduced kernel for regression[J].Neurocomputing,2018,321(10):72-81.

[37] LI K,XU W S,HAN Y,et al.A hybrid modeling method for interval time prediction of the intermittent pumping well based on IBSO-KELM[J].Measurement,2020,151(09):107214.

[38] WU X M,LAI C S,BAI C,et al.Optimal Kernel ELM and Variational Mode Decomposition for Probabilistic PV Power Prediction[J].Energies,2020,13(14):3592.

[39] 刘念,张清鑫,李小芳.基于核函数极限学习机的分布式光伏短期功率预测[J].农业工程学报,2014,30(04):152-159.

[40] SHANG Q,LIN C Y,YANG Z S,et al.A Hybrid Short-Term Traffic Flow Prediction Model Based on Singular Spectrum Analysis and Kernel Extreme Learning Machine[J].PLOS ONE,2016,11(08):e0.161259.

[41] CHEN Y H,KLOFT M,YANG Y,et al.Mixed kernel based extreme learning machine for electric load forecasting[J].Neurocomputing,2018,312(12):90-106.

[42] CHEN H L,WANG G,MA C,et al.An efficient hybrid kernel extreme learning machine approach for early diagnosis of Parkinson's disease[J].Neurocomputing,2016,184(02):131-144.

[43] YANG Z,CE L,LIAN L.Electricity price forecasting by a hybrid model combining wavelet transform,ARMA and kernel-based extreme learning machine methods[J].Applied Energy,2017,190(08):291-305.

[44] WANG M J,CHEN H L,LI H Z,et al.Grey wolf optimization evolving kernel extreme learning machine:Application to bankruptcy prediction[J].Engineering Applications of Artificial Intelligence,2017,63(11):54-68.

[45] 朱敏,许爱强,陈强强,等.一种基于改进KELM的在线状态预测方法[J].北京航空航天大学学报,2019,45(07):1370-1379.

[46] DAI J L,XU A Q,LIU X,et al.Sparse KELM Online Prediction Model Based on Forgetting Factor[C]//2020 IEEE 3rd International Conference on Automation,Electronics and Electrical Engineering (AUTEEE),2020,313-318.

[47] DAI J L,XU A Q,LIU X,et al.Online Sequential Model for Multivariate Time Series Prediction with Adaptive Forgetting Factor[J].IEEE Access,2020(08):175958-175971.

[48] 戴金玲,许爱强,于超,等.基于多元KELM的发动机状态在线预测模型[J].北京航空航天大学学报,2020(12):45-61.

[49] WANG X Y,HAN M.Multivariate time series prediction based on multiple kernel extreme learning machine[C]//2014 International Joint Conference on Neural Networks (IJCNN),2014:198-201.

[50] 王新迎,韩敏.多元混沌时间序列的多核极端学习机建模预测[J].物理学报,2015,64(07):129-135.

[51] SU X,AN J,ZHANG Y,et al.Prediction of ozone hourly concentrations by support vector machine and kernel extreme learning machine using wavelet transformation and partial least squares methods[J].Atmospheric Pollution Research,2020,11(06):51-60.

[52] LIU Z Y,LOO C K,PASUPA K,et al.Meta-cognitive recurrent kernel online sequential extreme learning machine with kernel adaptive filter for concept drift handling[J].Engineering Applications of Artificial Intelligence,2020,88(11):103327.

Survey of Kernel Extreme Learning Machine Methods for Online Prediction

DAI Jinling1, WU Minghui1, 2, LIU Xing1, LI Ruifeng3

(1.Naval Aviation University, Yantai 264001, China; 2.Hangzhou Institute of Applied Acoustics, Hangzhou 310000, China; 3.The No.92932nd Troop of PLA, Zhanjiang 524000, China)

Abstract: The online prediction of nonstationary chaotic time series is an important research direction in the field of science and engineering, for which kernel extreme learning machine (KELM) provides an effective mathematical model. Due to its fast learning speed and good generalization performance, online sequential KELM (OSKELM)has been extensively studied and extended in state prediction. The problem was described and mathematical model of OSKELM were introduced. Then, with chaotic time series as the application background, various improved OSKELM-based methods were classified and summarized, including OSKELM based on incremental learning method, OSKELM based on sparse dictionary, OSKELM based on parameter optimization, OSKELM based on forgetting factor and other methods. Afterwards, the performance of the algorithm was compared and analyzed. The thesis was summarized and the future research direction of this method was discussed.

Key words: kernel extreme learning machine; state prediction; forgetting factor; time-varying regularization factor; sparse dictionary

收稿日期:2021-02-26;修回日期:2021-03-15

基金项目:军队预研基金项目资助项目(3020202090302)

作者简介:戴金玲(1991—),女,博士研究生,主要从事装备测试与诊断技术研究。

doi: 10.11809/bqzbgcxb2021.06.003

本文引用格式:戴金玲,吴明辉,刘星,等.核极限学习机的在线状态预测方法综述[J].兵器装备工程学报,2021,42(06):12-19.

Citation format:DAI Jinling, WU Minghui, LIU Xing, et al.Survey of Kernel Extreme Learning Machine Methods for Online Prediction[J].Journal of Ordnance Equipment Engineering,2021,42(06):12-19.

中图分类号:TP181

文献标识码:A

文章编号:2096-2304(2021)06-0012-08

科学编辑 韩小孩 博士(中国人民解放军66325部队工程师)责任编辑 周江川