欢迎光临小豌豆知识网!
当前位置:首页 > 物理技术 > 调节控制> 基于单评判网络的可重构机器人零和神经最优控制方法独创技术14358字

基于单评判网络的可重构机器人零和神经最优控制方法

2021-02-03 01:01:39

基于单评判网络的可重构机器人零和神经最优控制方法

  技术领域

  本发明涉及一种可重构机器人系统的单评判网络零和神经最优控制方法,属于机器人控 制算法领域。

  背景技术

  可重构机器人可以根据不同的任务需求对自身构形进行重新组合与配置,从而表现出许 多传统机器人所不具有的优势。“模块化”与“可重构”作为可重构机器人设计的两大基本 要求,其主要思想是将一个复杂的机器人系统分解为多个具有较高便携性与可维护性的子系 统,从而有效缩短机器人系统的设计与制造的周期。可重构机器人系统不可避免在未知环境 下完成工作,并且要综合考虑并确保系统的稳定性、鲁棒性、精确性、节能性等指标,因此 在环境信息不确定的条件下采用合适的控制策略是十分必要的。

  最优控制作为现代控制理论的重要组成部分,其研究的核心问题是对于一个给定的被控 系统,选择合适的控制策略使系统的某些性能指标达到最优。对于可重构机器人系统,获取 其最优控制策略则需要求解哈密顿-雅克比-埃塞克方程,而该方程是一类非线性偏微分方程, 难以用解析方法求得最优解。自适应动态规划方法是一种解决非线性系统最优控制问题的强 有力工具,在自适应动态规划系统中,神经网络被设计用来近似性能指标函数并估计哈密顿- 雅克比-埃塞克方程的解。

  对于复杂的相互关联的非线性系统,尤其是可重构机器人系统,交联项的性质和规模与 内部动力学有很大的不同。通过设计状态扩展观测器对耦合交联项进行观测,并结合通过求 解哈密顿-雅克比-埃塞克方程的零和最优控制律以及最坏干扰律,得到单评判网络的零和神 经最优控制律,运用到动力学模型,获得关节位置变量。

  发明内容

  本发明为了解决现有技术中存在不确定性干扰的问题,提出了一种基于单评判辨网络的 可重构机器人系统的零和神经最优控制方法。

  本发明解决技术问题的方案是:

  基于单评判网络的可重构机器人零和神经最优控制方法,其特征是,该方法首先建立可 重构机器人系统的动力学模型,其次构建代价函数与HJI方程,通过基于策略迭代的学习算 法,来求HJI方程的解,然后通过对可重构机器人关节子系统间的耦合交联项的观测,接下 来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性。

  基于单评判网络结构的可重构机器人零和神经最优控制方法,包括如下步骤:

  步骤一,建立可重构机器人系统动力学模型如下:

  

  上式中,u∈Rn代表控制力矩,q∈Rn表示关节位置向量,表示关节速度向量,表示关节加速度向量,M(q)∈Rn×n代表惯性矩阵,表示哥氏力和离心力项, G(q)∈Rn代表重力项。

  在实际应用中,诸如空间探索或灾难救援,可重构机器人有很多关节模块,集中控制会 带来沉重的计算负担和复杂的控制结构。为了解决这一缺陷,考虑可重构机器人的每一个子 系统,其中包含交联耦合项,第i个子系统的动力学模型可表示为:

  

  

  其中,qi,ui,Mi,Ci是第i个q,u,G,M,C的元素向量,Mij(q)和表示矩阵 M(q)和第ij个元素,表示交联耦合项,di(qi)是不确定干扰项。

  令则(2)所示的动力学模型可以描述为如下状态空间形式:

  

  其中,xi是第i个子系统的状态,hi(x)是交联耦合项,x代表整个机器人的状态向量,xi1,xi2是xi的第1,2个元素。

  步骤二,构建代价函数如下:

  

  其中,ei=xi1-xid和分别代表第i个关节的位置和速度跟踪误差,其中Υi,θi为确 定常数。xid、分别是第i个关节期望的位置、速度和加速度,为效用函数,是确定的正常 数矩阵。

  定义哈密顿方程如下:

  

  其中,是第i个关节的期望加速度,Ji(0)=0,为代价函数Ji(si)的梯度。

  接下来,定义如下最优代价函数:

  

  若存在并且连续可微分可重构机器人系统的最优控制律为以及最坏干扰律为:

  

  HJI方程可以改写成:

  

  步骤三,交联项动力学的观测:

  基于线性状态扩张观测器,状态空间可以扩张为:

  

  其中xi3为系统的扩张状态,为xi3对时间的导数。线性扩展观测器的模型可以描述为:

  

  其中lij,j=1,2,3为观测器选择的增益参数。其中,

  

  ωi0>0为常数,αij,j=1,2,3选择为满足特征多项式s3+αi1s2+αi2s+αi3=(s+1)3的根,其中 在特征多项式中可以表示为:

  

  其中ωi0为状态扩张观测器的带宽。

  令观测误差为根据(13)和(14),观测误差可以定义为:

  

  令误差动力学可以描述为:

  

  其中

  αij,j=1,2,3的选择是令Ai是符合赫尔维茨的。

  步骤四,利用单层神经网络来近似代价函数定义如下:

  

  其中,Wic是理想的权值向量,是激活函数,εic是神经网络的逼近误差,的梯度 通过神经网络近似为:

  

  其中:分别代表激活函数的梯度和逼近误差。

  由于理想权值Wic是未知的,所以用近似权值建立一个评价神经网络来估计代价函数:

  

  根据哈密顿方程(7)和代价函数(18)以及它的梯度(19),哈密顿方程可以进一步改写为:

  

  其中,eiJh是由评判网络逼近误差而得到的残差。

  以同样的方式近似哈密顿方程,可得:

  

  定义误差方程为:

  

  权值估计误差定义为:

  

  训练和调整评价网络的权值信息,采用目标函数它可以被训练来取到最 小值,且神经网络的权值可以通过下式进行更新:

  

  其中,αi表示评价神经网络的学习速率。

  评价神经网络的动态误差如下所示:

  

  其中,υi定义为:

  

  结合(11)和(19),得到基于自适应动态规划的神经最优控制律以及最坏干扰律为:

  

  在实现在线策略迭代算法来完成策略改进时,得到了基于自适应动态规划的近似零和神 经最优控制律和最坏干扰律如下所示:

  

  本发明的有益效果如下:

  在位置跟踪方面,本发明改善了系统的跟踪性能,并且采用了单评判神经网络对未知非 线性项的计算负担,关节位置的稳态误差减小。

  在控制力矩方面,本发明的控制力矩更加连续和平滑,不仅可以保持系统渐进稳定,而 且可以降低每个关节的能量损耗。

  在训练神经网络方面,本发明通过在线策略迭代的方法可以更快的训练神经网络。

  因此,本发明解决了现有技术中存在不确定性干扰的最优控制精度低的问题,为可重构 机器人提供稳定性和精确性,并且可以满足各种任务的需求。

  附图说明

  图1为本发明基于单评判网络结构的可重构机器人零和神经最优控制原理图。

  图2为本发明基于单评判网络结构的可重构机器人零和神经最优控制方法流程图。

  具体实施方式

  下面结合附图对本发明做进一步详细说明。

  如图1所示,根据控制器参数与期望动力学信息,与期望位置变量作比较。通过确定神 经网络初值,得到神经网络权值更新率。交联项模型与其观测值相比较,得到观测误差函数, 获得交联项动力学的观测信息。通过近似代价函数与评判网络,得到基于单评判网络的自适 应动态规划的零和最优控制律以及最坏干扰律把交联项动力学观测信息、相结 合,得到单评判网络的零和神经最优控制律,运用到动力学模型,获得关节位置变量。与期 望位置变量作差得到位置误差,再进而作用到神经网络权值更新率。

  如图2所示,基于单评判网络的可重构机器人零和神经最优控制方法,该方法首先建立 可重构机器人系统动力学模型,其次构建代价函数与HJI方程,通过基于策略迭代的学习算 法,来求HJI方程的解,然后通过对可重构机器人关节子系统间的耦合力矩交联项的观测, 接下来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性。

  1、动力学模型的建立

  建立可重构机器人系统的动力学模型如下:

  

  上式中,u∈Rn代表控制力矩,q∈Rn表示关节位置向量,表示关节速度向量,表示关节加速度向量,M(q)∈Rn×n代表惯性矩阵,表示哥氏力和离心力项, G(q)∈Rn代表重力项。

  在实际应用中,诸如空间探索或灾难救援,可重构机器人有很多关节模块,集中控制会 带来沉重的计算负担和复杂的控制结构。为了解决这一缺陷,考虑可重构机器人的每一个子 系统,其中包含交联耦合项,第i个子系统的动力学模型可表示为:

  

  

  其中,qi,ui,Mi,Ci是第i个q,u,G,M,C的元素向量,Mij(q)和表示矩阵 M(q)和第ij个元素,表示交联耦合项,di(qi)是不确定干扰项。

  令则(2)所示的动力学模型可以描述为如下状态空间形式:

  

  其中,xi是第i个子系统的状态,

  

  其中,hi(x)是交联耦合项,x代表整个机器人的状态向量,xi1,xi2是xi的第1,2个元素。

  2、代价函数与哈密顿函数的构建

  首先,构建代价函数为:

  

  其中,ei=xi1-xid和分别代表第i个关节的位置和速度跟踪误差,其中Υi,θi为确 定常数。xid、分别是第i个关节期望的位置、速度和加速度,为效用函数,是确定的正常 数矩阵。

  定义哈密顿方程如下:

  

  其中,是第i个关节的期望加速度,Ji(0)=0,为代价函数Ji(si)的梯度。 接下来,定义如下最优代价函数:

  

  基于非线性系统最优控制设计理论下,易知满足如下HJI方程:

  

  若存在并且连续可微分可重构机器人系统的最优控制律为以及最坏干扰律为:

  

  HJI方程可以改写成:

  

  接下来,通过基于策略迭代的学习算法,来求HJI方程的解。选择一个很小的正常数εi, 让k=0,开始的允许控制策略以及干扰律基于控制策略和干扰律根据

  

  求解而后采用对控制策略进行更新,对干扰策略进行更新。如果k>0且则停止运算, 得到近似最优控制律以及干扰律,否则k=k+1然后继续求解

  3、交联项动力学的观测

  采用状态扩张观测器来观测交联项动力学hi(x)。

  根据状态空间(4),首先假设可重构机器人系统没有不确定性干扰,基于线性状态扩张观 测器,状态空间可以扩张为:

  

  其中xi3为系统的扩张状态,为xi3对时间的导数。线性扩展观测器的模型可以描述为:

  

  其中lij,j=1,2,3为观测器选择的增益参数。其中,

  

  ωi0>0为常数,αij,j=1,2,3选择为满足特征多项式s3+αi1s2+αi2s+αi3=(s+1)3的根,其中 在特征多项式中可以表示为:

  

  其中ωi0为状态扩张观测器的带宽。

  令观测误差为根据(13)和(14),观测误差可以定义为:

  

  令误差动力学可以描述为:

  

  其中

  αij,j=1,2,3的选择是令Ai是符合赫尔维茨的。

  4、基于评判神经网络的代价函数近似实现

  利用单层神经网络来近似代价函数定义如下:

  

  其中,Wic是理想的权值向量,是激活函数,εic是神经网络的逼近误差,的梯度 通过神经网络近似为:

  

  其中:分别代表激活函数的梯度和逼近误差。结合(11),(19)得到

  

  由于理想权值Wic是未知的,所以用近似权值建立一个评价神经网络来估计代价函数:

  

  根据哈密顿方程(7)和代价函数(18)以及它的梯度(19),哈密顿方程可以进一步改写为:

  

  其中,eiJh是由评判网络逼近误差而得到的残差。

  以同样的方式近似哈密顿方程,可得:

  

  定义误差方程为:

  

  权值估计误差定义为:

  

  训练和调整评价网络的权值信息,采用目标函数它可以被训练来取到最 小值,且神经网络的权值可以通过下式进行更新:

  

  其中,αi表示评价神经网络的学习速率。

  评价神经网络的动态误差如下所示:

  

  其中,υi定义为:

  

  结合(11)和(19),得到基于自适应动态规划的神经最优控制律以及最坏干扰律为:

  

  在实现在线策略迭代算法来完成策略改进时,得到了基于自适应动态规划的近似零和神 经最优控制律和最坏干扰律如下所示:

  

  5、仿真验证

  验证所提出的零和神经最优控制方法的有效性,对二自由度可重构机器人模型的两种不 同构形进行仿真验证,其中,动力学模型为:

  构形A:

  

  

  

  构形B:

  

  

  

  两种构形的参考轨迹定义为:

  

  选取权值向量为:构形A和 B初始值选取为激活函数选取为:

  通过Matlab仿真结果表明,所提出的零和神经最优控制方法能为可重构机器人提供稳定 性和精确性,以满足各种任务的要求。

《基于单评判网络的可重构机器人零和神经最优控制方法.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)