离散非线性系统的事件驱动最优控制

更新时间:2023-07-13 23:04:46 阅读：评论：0

离散非线性系统的事件驱动最优控制

张欣;薄迎春

【摘要】为了降低数据传输次数和计算量,针对离散非线性系统的最优控制问题,提出了一种基于单网络值迭代算法的事件驱动最优控制方案.首先,设计了一种新型事件驱动阈值,当事件驱动误差大于该阈值时事件触发;然后,仅利用一个神经网络来构建评价网,直接计算获得系统状态和控制策略,省略了典型自适应动态规划中模型网和执行网的构建,从而减少了神经网络权值的训练量,通过在评价网和控制策略之间不断地迭代,获得事件驱动近似最优控制策略;接着,基于Lyapunov稳定性理论分别证明了闭环系统的稳定性和评价网络权值的一致最终有界性;最后,将该方法应用于一个离散非线性系统上进行仿真,实验结果验证了所提出的事件驱动最优控制方案的有效性.

【期刊名称】unhappy《沈阳师范大学学报（自然科学版）》

【年(卷),期】2018(036)004

词源字典

【总页数】6页(P318-323)

【关键词】离散非线性系统;事件驱动控制;值迭代算法;最优控制

【作者】张欣;薄迎春

【作者单位】中国石油大学信息与控制工程学院,山东青岛 266580;中国石油大学信息与控制工程学院,山东青岛 266580

【正文语种】中文

【中图分类】TP273;O221

0 引言

因为在降低数据传输次数和计算量的同时还能保证具有较好的控制性能,因此,事件驱动控制近年来一直是控制领域的研究热点。与传统的采样方法不同,事件驱动提供了一个只在状态采样点更新的非周期策略。只有当事件触发条件不被满足时,对系统状态进行采样, 更新系统的控制率。在2次更新之间采用零阶保持器保证控制器的输出。

目前,已有许多文献利用事件驱动控制方案解决不同的控制问题[1-5]。文献[3]研究了线性系

统的周期事件驱动控制。文献[4]将事件驱动控制扩展到了离散非线性系统中。Tallaprogada等在文献[5]中给出了事件驱动方法在非线性跟踪问题上的控制方案。为了在事件驱动控制机制下研究系统的最优控制问题, 近期很多学者开始将自适应动态规划(adaptive dynamic programming, ADP)方法引入到事件驱动控制方案中。ADP作为解决非线性系统最优控制问题的有效方法得到了广泛关注[6-9]。文献[10]求解了连续非线性系统的事件驱动自适应最优控制。S.Jagannathan等[11]研究了不确定连续非线性系统的事件驱动控制方法。王鼎等在文献[12]中针对连续系统的H∞控制问题, 提出了基于混合数据和事件驱动的控制方案。文献[13]研究了离散非线性系统的自适应事件驱动控制方法。

为了降低数据传输次数、计算量和神经网络权值的训练量,针对离散非线性系统的最优控制问题, 提出了一种基于单网络值迭代算法的事件驱动控制方案。充分发挥了ADP算法、事件驱动控制和神经网络各自的优势。与典型的ADP算法相比, 舍弃了用3个神经网络分别构建模型网、控制网和评价网的架构。只利用一个神经网络来构建评价网, 继而省略了模型网和控制网的神经网络权值训练量。并且引入事件驱动控制机制来有效地降低控制策略的计算次数以及系统状态和控制器之间的数据传输。

1 离散非线性系统的最优控制

考虑如下的离散非线性系统:

xk+1=f(xk)+g(xk)u(xk)

(1)

相应的性能指标函数为普通二次型形式:

(2)

其中:x∈Ω⊆Rn为状态向量;u∈Rm为容许控制输入,控制目标是保证系统稳定,并使得性能指标函数最小;f(·)和g(·)为光滑可微函数;r(xn,un)=Qxn+Run为效用函数;矩阵Q和R为具有适当维数的对称正定矩阵。假设系统(1)是可控的, f(0)=0, xk=0是系统(1)唯一的平衡点。

有空

将性能指标函数(2)展开, 可得

V(xk)=Qxk+uT(xk)Ru(xk)+V(xk+1)

(3)

翻译论坛

根据Bellman最优性原理[14],最优值函数V*(xk)是时变的, 并且满足离散HJB方程:

(4)

最优控制策略u*(xk)应该保证HJB方程一阶导数为零, 可求得

2 事件驱动最优控制

2.1 事件驱动机制

在事件驱动机制中,定义是一个单调递增序列,ki代表第i个采样时刻。采样系统的输出是由系统(1)在ki时刻的状态xki组成的序列。定义事件触发条件为

‖ek‖≤eT, k∈[ki,ki+1)

其中:ek=xki-xk为事件驱动误差;eT为事件驱动阈值。仅当‖ek‖>eT时, 触发条件不被满足,事件驱动状态误差被重置为零,同时更新控制策略μ(xki)≜u(xki),并且通过零阶保持器保证在k∈[ki,ki+1]时间段内系统的控制策略不变,直到下一次事件触发。因此, 系统状态方程(1)重写为zoo的复数形式

xk+1=f(xk)+g(xk)μ(ek+xk), k∈[ki,ki+1)

(5)

nbn最优状态反馈控制策略应该表示为

(6)

假设1 存在正数L, 满足[13]

‖xk+1‖≤L‖ek‖+L‖xk‖

由于ek+1=xki-xk+1, k∈[ki,ki+1),根据假设1,可得

因此,定义事件驱动阈值为

其中常数α∈(0,1]为事件驱动阈值适应率,主要用来调节采样频率。

定理1 对于离散非线性系统(5),相应的性能指标函数为(2),当采用公式(6)中的事件驱动最优控制策略时,则闭环系统(5)是渐近稳定的。

证明选取Lyapunov函数为

该Lyapunov函数的一阶差分方程为ΔV=V(xk+1)-V(xk)。

情况1 事件没有触发,∀k∈[ki,ki+1)

对于任意xk≠0,有ΔV<0,即Lyapunov函数的一阶差分方程是负定的。

情况2 事件被触发,∀k=ki+1

对于任意xki+1≠0,有ΔV<0。综合情况1和情况2可得,Lyapunov函数的一阶差分方程是负定的,根据Lyapunov理论可得,闭环系统(5)是渐近稳定的。证明完毕。

2.2 单网络值迭代算法

事件驱动机制将整个控制过程分为了若干部分,控制输入仅在采样时刻更新,其他时刻保持不变,因此当k∈[ki,ki+1)时,控制策略为

其中V*(x)需要通过求解离散HJB方程(4)来获得。而对于离散非线性系统来说,HJB方程(4)

的解析解很难直接求解。因此本文将采用单网络值迭代的ADP算法来求解HJB方程,进而获得事件驱动近似最优控制策略。

单网络值迭代算法仅利用一个神经网络来构建评价网,省略了典型ADP算法中的执行网。如果系统动态已知,那么模型网也可以省略。典型ADP算法中执行网的输出可以直接通过公式(6)计算获得,系统状态可以通过方程(5)计算得出。

采用一个三层神经网络来构建评价网

V*(xk)=φc(xk)+εck

(7)

其中:∈RNc×1为未知的隐含层到输出层的理想神经网络权值;∈RNc×n为理想的输入层到隐含层的神经网络权值;Nc是隐含层节点数;φc(·)为评价网激活函数;εck为评价网近似误差。在评价网设计过程中, 保持不变,只训练权值隐含层到输出层的权值,定义为其估计值。

典型ADP值迭代算法是通过在序列Vj(xk)和序列uj(xk)之间反复迭代获得最优值函数和最优控制策略。在单网络值迭代算法中,序列Vj(xk)为评价网输出thematrix

其中控制策略序列uj(xk)可以直接通过下式计算获得

其中:j代表迭代次数;k表示时间步,xk表示k时刻系统的状态;uj(xk)表示k时刻第j次迭代的控制策略;Vj(xk)表示k时刻第j次迭代的值函数。当迭代次数j→∞时,序列Vj(xk)收敛到离散HJB方程(4)的解,即V∞(xk)=V*(xk),序列uj(xk)收敛到最优的控制策略,即u∞(xk)=u*(xk)[15]。lling

定义评价网的训练误差为

定义最小化目标函数为利用梯度下降法, 可得评价网的权值更新规则为

其中:为评价网学习率。

定义评价网权值估计误差为由式(3)、式(7)、式(8)和式(9)可得

其中Δεc(k)=εc(k+1)-εck。

接下来,证明评价网权值估计误差的收敛性。在证明开始之前,给出下列假设条件。

假设2 1) 评价网激活函数有界,φcm≤‖φc(·)‖≤φcM;

2) Δεc(k)具有上界,满足‖Δεc(k)‖≤εcM。

定理2 评价网的权值更新规则为式(8)和式(9),如果下列不等式满足

则评价网权值估计误差是一致最终有界的。

证明选取Lyapunov函数为aa是什么意思

revealing

根据柯西不等式和公式(10),Lyapunov函数的一阶差分为

(13)

在不等式(13)的计算过程中,为了保证I-αcΔφc(k)Δ(k)>0,要求不等式(11)成立。如果不等式(12)成立,则ΔL<0。根据Lyapunov稳定性理论,可知是一致最终有界的。证明完毕。

基于上述事件驱动机制和单网络值迭代算法,可以获得离散非线性系统的近似最优控制策略为

(14)

该单网络值迭代事件驱动控制方案具体的执行步骤如下:

步骤1 初始化参数L,评价网学习率αc,评价网权值和Vc,评价网训练次数j,训练精度ξ和训练上限jmax,稳态精度?和计算上限imax;

本文发布于:2023-07-13 23:04:46，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/78/1095113.html

上一篇：多智能体系统协调控制一致性问题研究

下一篇：新视野大学英语第三版第四册选词填空及翻译答案

标签：控制系统评价函数迭代算法

留言与评论（共有 0 条评论）