基于力觉引导的机械臂自适应开门旋拧方法

更新时间:2023-05-05 20:17:37 阅读：评论：0

收稿日期：２０２００６０５；修回日期：２０２００７２７基金项目：国家“十三五”核能开发项目（２０１６１２９５）；国家科技重大专项（２０１９ＺＸ０６００２０２２）作者简介：蒋元陈（１９９５），男，四川达州人，硕士研究生，主要研究方向为机器人控制、深度强化学习（１４７７３６１８０７＠ｑｑ．ｃｏｍ）；刘宏伟（１９８２），男（通信作者），河北大城人，讲师，硕士，主要研究方向为机器人自主作业技术（ｌｉｕｈｏｎｇｗｅｉ＠ｓｗｕｓｔ．ｅｄｕ．ｃｎ）；刘满禄（１９８１），男，山西朔州人，讲师，硕导，主要研究方向为机器人遥操作与容错控制；张俊俊（１９６１），女，内蒙古人，教授，硕导，主要研究方向为机电液系统控制研究．

基于力觉引导的机械臂自适应开门旋拧方法

蒋元陈１ａ，１ｂ，刘宏伟１ｃ，刘满禄１ｂ，２，张俊俊１

ａ

（１．西南科技大学ａ．制造科学与工程学院；ｂ．特殊环境机器人技术四川省重点实验室；ｃ．信息工程学院，

四川绵阳６２１０００；２．中国科学技术大学信息科学技术学院，合肥２３００２６）摘　要：针对核应急环境中，环境模型未知、人工开门危险性较大的问题，提出了一种基于力觉引导的机械臂自

适应开门旋拧方法。该方法通过机械臂末端的六维力传感器获得力和力矩信息，将实际力或力矩与期望力或力矩之间的差值作为深度确定性策略梯度算法的状态输入，同时输出动作；利用机械臂末端所受两个方向力的函数关系，设置基础奖励函数，通过机械臂的期望运动方向，设置引导性奖励函数，使机械臂自动适应力与力矩的变化，完成旋拧门把手任务。仿真数据结果表明，在有引导性奖励的情况下，基于力觉引导的机械臂自适应旋拧方法能够在更短的时间内达到收敛，完成机械臂旋拧门把手的任务。关键词：深度强化学习；力觉引导；自适应方法；奖励函数中图分类号：ＴＰ１８　文献标志码：Ａ　文章编号：１００１３６９５（２０２１）０６０３８１８０４０５ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０２０．０６．０２５１

Ａｄａｐｔｉｖｅｏｐｅｎｉｎｇａｎｄｓｃｒｅｗｉｎｇｍｅｔｈｏｄｏｆｍａｎｉｐｕｌａｔｏｒｂａｓｅｄｏｎｆｏｒｃｅｇｕｉｄａｎｃｅ

ＪｉａｎｇＹｕａｎｃｈｅｎ１ａ，１ｂ，ＬｉｕＨｏｎｇｗｅｉ１ｃ，ＬｉｕＭａｎｌｕ１ｂ，２，ＺｈａｎｇＪｕｎｊｕｎ

１ａ

（１．ａ．ＳｃｈｏｏｌｏｆＭａｎｕｆａｃｔｕｒｉｎｇＳｃｉｅｎｃｅ＆Ｅｎｇｉｎｅｅｒｉｎｇ，ｂ．ＲｏｂｏｔＴｅｃｈｎｏｌｏｇｙＵｓｅｄｆｏｒＳｐｅｃｉａｌＥｎｖｉｒｏｎｍｅｎｔ

ＫｅｙＬａｂｏｒａｔｏｒｙｏｆＳｉｃｈｕａｎＰｒｏｖｉｎｃｅ，ｃ．ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＳｏｕｔｈｗｅｓｔＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅ＆Ｔｅｃｈｎｏｌｏｇｙ，ＭｉａｎｙａｎｇＳｉｃｈｕａｎ６２１０００，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ＆Ｔｅｃｈｎｏｌｏｇｙ，ＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅ＆ＴｅｃｈｎｏｌｏｇｙｏｆＣｈｉｎａ，Ｈｅｆｅｉ２３００２６，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｉｎｔｈｅｕｎｃｅｒｔａｉｎｎｕｃｌｅａｒｅｎｖｉｒｏｎｍｅｎｔ，ｔｈｅｍａｎｕａｌｄｏｏｒｏｐｅｎｉｎｇｉｓｄａｎｇｅｒｏｕｓ．Ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｎａｄａｐｔｉｖｅｏｐｅ

ｎｉｎｇａｎｄｓｃｒｅｗｉｎｇｍｅｔｈｏｄｏｆｍａｎｉｐｕｌａｔｏｒｂａｓｅｄｏｎｆｏｒｃｅｓｅｎｓｅｇｕｉｄａｎｃｅ．Ｔｈｅｓｉｘｄｉｍｅｎｓｉｏｎａｌｆｏｒｃｅｓｅｎｓｏｒｃｏｕｌｄｏｂｔａｉｎｔｈｅｆｏｒｃｅａｎｄｍｏｍｅｎｔｉｎｆｏｒｍａｔｉｏｎａｔｔｈｅｅｎｄｏｆｔｈｅｍａｎｉｐｕｌａｔｏｒ．Ｉｔｉｎｐｕｔｔｈｅｄｉｆｆｅｒｅｎｃｅｂｅｔｗｅｅｎｔｈｅａｃｔｕａｌｆｏｒｃｅｏｒｔｏｒｑｕｅａｎｄｔｈｅｅｘｐｅｃ

ｔｅｄｆｏｒｃｅｏｒｔｏｒｑｕｅｉｎｔｏｄｅｅｐｄｅｔｅｒｍｉｎｉｓｔｉｃｐｏｌｉｃｙｇｒａｄｉｅｎｔａｌｇｏｒｉｔｈｍ

，ｏｕｔｐｕｔａｃｔｉｏｎｓａｔｔｈｅｓａｍｅｔｉｍｅ．Ｔｈｉｓｍｅｔｈｏｄｕｓｅｄｔｈｅｆｕｎｃｔｉｏｎｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｔｈｅｔｗｏｄｉｒｅｃｔｉｏｎｆｏｒｃｅｓａｔｔｈｅｅｎｄｏｆｔｈｅｍａｎｉｐｕｌａｔｏｒｔｏｓｅｔｔｈｅｂａｓｉｃｒｅｗａｒｄｆｕｎｃｔｉｏｎａｎｄｕｓｅｄｔｈｅｅｘｐｅｃｔｅｄｍｏｖｅｍｅｎｔｄｉｒｅｃｔｉｏｎｏｆｔｈｅｍａｎｉｐｕｌａｔｏｒｔｏｓｅｔｔｈｅｇｕｉｄｅｄｒｅｗａｒｄｆｕｎｃｔｉｏｎ，ｆｏｒｔｈｅｍａｎｉｐｕｌａｔｏｒｃｏｕｌｄａｕｔｏｍａｔｉｃａｌｌｙａｄａｐｔ

ｔｏｔｈｅｃｈａｎｇｅｏｆｔｈｅｍｏｍｅｎｔａｎｄｔｈｅｓｔｒｅｓｓ

，ａｎｄｃｏｍｐｌｅｔｅｄｔｈｅｔａｓｋｏｆｓｃｒｅｗｉｎｇｔｈｅｄｏｏｒｈａｎｄｌｅ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｓｅｌｆａｄａｐｔｉｖｅｒｏｔａｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｆｏｒｃｅｇｕｉｄａｎｃｅｃａｎａｃｈｉｅｖｅｃｏｎｖｅｒｇｅｎｃｅｉｎａｓｈｏｒｔｅｒｔｉｍｅａｎｄｃｏｍｐｌｅｔｅｔｈｅｔａｓｋｏｆｒｏｔａｔｉｎｇｔｈｅｄｏｏｒｈａｎｄｌｅ．Ｋｅｙｗｏｒｄｓ：ｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ；ｆｏｒｃｅｇｕｉｄｅｄ；ａｄａｐｔｉｖｅｍｅｔｈｏｄ；ｒｅｗａｒｄｆｕｎｃｔｉｏｎ

０　引言

因核辐射［１］

对人体会造成损伤，以核应急、核运维、核退役为代表的非结构化环境需要机器人代替人执行相关作业、处置任务。传统结构化环境机器人任务执行算法难以适应以上复杂的任务和环境，需要通过改进算法，进一步提升机器人系统的环境和任务适应性。以核退役与应急中典型的开门任务为例，因任务对象的不确定、任务过程多变，无法做到每次开门能够规范化操作。本文通过自适应强化学习算法，提高机器人适应环境的能力。

经典控制方法，如比例—积分—微分控制、鲁棒控制、轨迹规划［２］

、自适应控制对控制精度要求较高，难以完成非结构化环境下的任务，为此学者对控制方法进行改进，以获得更好的

机械臂控制效果。文献［

３，４］提出了自适应变阻抗控制方法，用于解决环境未知情况下的接触任务力跟踪问题。Ｗｏ

ｐｅｒｅｉｓ等人［５］

在状态反馈中加入线性二次型调节器，以实现对连续

接触力的控制。文献［

６］提出了一种将自适应控制和传统阻抗控制相结合的算法，从而实现了算法对力的有效跟踪。Ａｄｕ

Ｄａｋｋａ

等人［７］

提出一个结合力感测与变阻抗控制来学习基于力的变刚度技巧的示范学习框架，该方法从人为演示中估计完整的刚度矩阵，然后这些矩阵与感测到的力一起作用于编码任

务的概率模型。刘岩［

８］

提出了一种基于信息不完整的开门方法，该方法采用柔性运动控制和力控制来克服不确定信息的限制，在应用柔顺运动控制的同时估计门把手的转动点的中心，

以便完成门把手的扭转动作。Ｗａｎｇ等人［９］

提出了一种构造反馈系统的Ｌｙａｐｕｎｏｖ函数，从而得到稳定的控制器。Ｗａｎｇ等人［

１０］

使用李雅普诺夫方程和模糊控制来拟合非线性函数，减少了非线性系统中机械臂参数在线调节的次数。Ｇａｓｐｅｒｓ等人［１１］

提出了一种无力反馈的开门方法，建立与环境相同的三维模型，机器人便可以根据模型自动规划轨迹。Ｎｅｍｅｃ等人［１２］

针对整个开门过程中的推拉门动作提出了一种使用深度强化学习结合力传感器采集的数据训练来寻找运动过程中受

力最小的方向。Ｙ

ａｈｙａ等人［１３］

提出了一种分布式异步策略学习的方法，使用多台机械臂进行训练，提高样本的数量和多样

性。Ｐｅｒｒｕｓｑｕíａ等人［１４］

提出了一种非结构化环境下利用深度强化学习学习期望力，然后导纳控制生成期望位置自动适应环

第３８卷第６期２０２１年６月　计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓＶｏｌ３８Ｎｏ６

Ｊｕｎ．２０２１

境来控制机械臂的方法。

以上方法能够解决部分已知和未知环境模型的开门任务。但针对门把手半径不确定，同时机械臂末端能自适应受力变化和位姿跟踪等问题，研究较少且难以实际应用。考虑到这些问题，本文提出一种基于力觉引导的机械臂自适应开门旋拧方法，利用力传感器获取机械臂末端力觉信息，输入到神经网络中进行训练，设置力误差基础奖励和加快算法收敛的引导性奖励，通过回报奖励大小获取机械臂末端最佳的位移和姿态，以达到自适应环境的目标。本文主要工作有：ａ）利用ＶＲＥＰ环境建立机械臂模型，定义机械臂与环境交互的数学模型；ｂ）使用深度神经网络建立力误差状态与机械臂末端位移的映射关系；ｃ）利用机械臂末端受力的函数关系和所获取的力觉信息设置奖励函数，避免控制多维力的复杂性，加快算法收敛。

１　环境模型

本文环境包括ＵＲ５机械臂和门模型两个部分，深度强化

学习算法与环境相互作用，通过不断试错进行优化，模拟旋拧门把手的过程。１１　机械臂模型

根据旋量理论的指数积公式对ＵＲ５机械臂建立数学模

型，如图１所示，

设定机械臂的每个关节的方向、位置和末端初始位姿。建立六个关节旋转轴单位矢量为

τ＝［τ１，τ２，τ３，τ４，τ５，τ６

］＝０００００００－１－１－１－１－１

１

０

１

０（

１）六个关节旋转轴的位置矢量为

ｐＴ＝ｐ１，ｐ２，ｐ３，ｐ４，ｐ５，ｐ[

]６Ｔ＝０００００Ｌ１００Ｌ１＋ａ２００Ｌ１＋ａ２＋ａ３０－ａ４Ｌ１＋ａ２＋ａ３０－ａ４Ｌ１＋ａ２＋ａ３＋Ｌ

５（２）机械臂末端初始位姿为

Ｔ６

１

（０）＝－１００

０

００－１－ａ４－Ｌ６

０－１０Ｌ１＋ａ２＋ａ３＋Ｌ５

０

１

（３）

关节运动旋量为

ξｉ＝

－τｉ×ｐｉ

τｉ

（４）

根据Ｒｏｄｒｉｇｕｅｓ公式，ＵＲ５机械臂正运动学ＰＯＥ公式为

Ｔ６１（θ）＝ｅθ１ξ１ｅθ２ξ２ｅθ３ξ３ｅθ４ξ４ｅθ５ξ５ｅθ６ξ６Ｔ６１

（０）（５）

其中：ξｉ为关节单位运动旋量；τ中每一列表示关节旋转轴ξｉ

的旋转方向的单位矢量；ｐＴ

中每一行表示关节旋转轴ξｉ的位置矢量。

１２　马尔可夫决策模型

在旋拧门把手的过程中，机械臂的状态与动作之间存在映射关系，即下一个状态取决于当前状态和当前动作，其数学模型是一个典型的马尔可夫决策过程（Ｍａｒｋｏｖｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓ，

ＭＤＰ）［１５］

。本节使用马尔可夫决策过程对机械臂旋拧门把手

进行建模。此过程主要分为四个部分，即状态集合Ｓ

、动作集合Ａ、状态转移概率Ｐ和奖励回报Ｒ。在旋拧的过程中，机械臂作为智能体，在某一时刻ｔ，机械臂所受的力以及门把手旋转

的角度都会对应一个状态ｓｔ，机械臂根据策略π（ｓｔ

）以概率Ｐ（ｓｔ＋１｜ｓｔ）选择动作ａｔ，执行动作ａｔ之后，

机械臂所受的力以及门把手旋转的角度将会进入一个新的状态ｓｔ＋１

，机械臂得到奖励Ｒａｔ（ｓｔ

＋１｜ｓｔ）。深度强化学习的目标就是找到一个最优策略π

，使从ｔ时刻到任务结束时，得到最大的奖励回报。

Ｇｔ＝Ｒｔ＋γＲｔ＋１＋…＝∑∞

ｋ＝０γｋ

Ｒｔ＋ｋ＋１

（６）

２　基于力觉引导的机械臂自适应旋拧方法

机械臂在执行开门旋拧任务时，会和门把手产生接触，对

机械臂的位形有极大的约束，因此不可避免会产生接触力。接触力过大会对机械臂的关节造成很大的损伤，从而影响机械臂的精度，导致机械臂不能正常工作。使用六维力传感器实时获取机械臂末端与环境的接触力，结合深度强化学习的决策能力，能够保护机械臂本身的安全。更重要的是，通过对多元力信息的分解和利用，在引导机械臂运动方向的前提下，可以规划出一条更加高效、顺滑的机械臂运动轨迹。本节采用的深度强

化学习算法是深度确定性策略梯度算法（

ｄｅｅｐｄｅｔｅｒｍｉｎｉｓｔｉｃｐｏｌｉｃｙｇｒａｄｉｅｎｔ

，ＤＤＰＧ）［１６～１８］

，利用力觉信息，结合深度强化学习强大的非线性拟合能力以及决策能力，能够提高适应环境的能力。２１　力觉信息运用

通过ＵＲ５机械臂上的力传感器实时采集力和力矩信息，与设定的期望力和期望力矩之差输入到ＤＤＰＧ神经网络中训练，不断地优化力误差，更新网络参数，使实际力和力矩逐渐收敛于期望力和力矩，保证机械臂不会因为过大的力和力矩，对机械臂造成损伤。

ＵＲ５机械臂旋拧门把手的过程是在ＹＺ平面上进行的，需

要通过同时控制沿Ｙ

、Ｚ轴两个方向的力来实现力控制策略。两个维度的力组合情况较多，为了避免使用多个维度的力进行奖惩的复杂性，本节的力觉使用主要通过控制Ｙ方向的力误差，通过Ｙ、Ｚ方向力的函数关系，用Ｚ方向的力把Ｙ方向的力表示出来作为Ｙ方向的期望力。而且Ｙ、Ｚ方向力的函数关系中也

涉及到机械臂末端绕Ｘ轴的旋转角，

即第六个关节角度，通过一个表达式同时限制了Ｙ

、Ｚ方向的力以及机械臂末端姿态的变化，既避免了使用多个维度的力进行奖惩的复杂性，也同时跟踪了机械臂末端姿态的变化，防止机械臂末端产生过大的扭矩。

状态主要由三个部分组成，分别是Ｙ方向的力误差，

Ｚ方向的力误差，以及绕着Ｘ轴的力矩误差。计算Ｙ方向的力误差时，需要找到Ｙ、Ｚ方向力的关系，在不考虑重力的情况下，根据机械臂旋拧门把手的过程，进行机械臂受力的分析，如图２所示。在期望状态下，机械臂旋拧门把手沿着理想的圆弧轨迹运行，机械臂末端会沿Ｙ、Ｚ轴两个方向运动，必然会受到门把手向Ｙ、Ｚ方向的两个反作用力，两者应满足如下关系：

Ｆｙｄ＝Ｆｚｅ×

ｔａｎα（７）

又因为在期望状态下，机械臂手爪的姿态也始终应与门把手成

９０°夹角，机械臂手爪的旋转角度θ等于门把手的旋转角度α，即

α＝θ

（８）把Ｆｙｄ

作为Ｙ方向的期望力，则Ｙ方向的力误差为ΔＦｙ＝Ｆｙｅ－Ｆｙｄ

（９）Ｚ方向的力误差：

ΔＦｚ＝Ｆｚｅ－Ｆｚｄ

（１０）绕着Ｘ轴的力矩误差：

ΔＴｘ＝Ｔｘｅ－Ｔｘｄ

（１１）

在当前状态下，Ｆｙｅ表示Ｙ方向的实际力，Ｆｙｄ

表示Ｙ方向的期望力，Ｆｚｅ表示Ｚ方向的实际力，Ｆｚｄ表示Ｚ方向的期望力，Ｔｘｅ表示绕Ｘ轴的实际力矩，Ｔｘｄ表示绕Ｘ轴的期望力矩。２２　动作设定

机械臂旋拧门把手的过程中，机械臂在ＹＺ同一平面上进行运动。因此ＤＤＰＧ的输出动作也为３维，动作空间Ａ：包括Ｙ方向上的位移ａｙ，Ｚ方向上的位移ａｚ，以及机械臂的第六个关节角位移θ６

。·５０８１·第６期蒋元陈，等：基于力觉引导的机械臂自适应开门旋拧方法　

图１　ＶＲＥＰＵＲ５机械臂模型Ｆｉｇ．１　ＶＲＥＰＵＲ５ｍａｎｉｐｕｌａｔｏｒｍｏｄｅｌ图２　机械臂末端受力分析

Ｆｉｇ．２　Ａｎａｌｙｓｉｓｏｆｔｈｅｆｏｒｃｅｏｎｔｈｅ

ｅｎｄｏｆｔｈｅｍａｎｉｐｕｌａｔｏｒ

２３　奖惩函数设定

奖励设计主要包括基础奖励和引导性奖励两个部分。

在基础奖惩部分，机械臂夹持住门把手运动的过程中需要对每一时间步进行即时评价，令ＤＤＰＧ算法逐渐学习到奖励值高的策略，优化力误差，减少机械臂因为力过大而造成损伤。因此，将Ｙ方向的力误差的绝对值取负，作为基础奖惩部分的评价依据，如式（１２）所示。

ｒｂ＝－λ｜ΔＦｙ｜

（１２）

为了加快深度强化学习模型训练效率，在奖惩函数中加入了引导性奖励部分，根据力误差所处的区间和当前实际力的大小给予不同的奖励进行引导，如式（１３）所示。

ｒｇ１＝５ΔＦｙ＜５，ΔＦｚ≤２，ΔＴｘ＜２２ΔＦｙ＜５，２＜ΔＦｚ＜５，ΔＴｘ＜２０５≤ΔＦｚ

≤

１５（１３）

为了防止机械臂初始探索移动方向与期望方向相反或偏

差过大，以及力传感器采集到的实时力过大时，可以对其适当设置惩罚，如式（１４）所示。

ｒｇ２＝－１０Δｙｓｔｅｐ＞０ｏｒΔｚｓｔｅｐ＞０－１０Ｆｙｅ＜－５ｏｒＦｚｅ＜－５－２０Ｆｙｅ＞１５ｏｒＦｚｅ＞１５ｏｒＴｘｅ

＞

１０（１４）

其中：Δｙｓｔｅｐ表示机械臂末端沿Ｙ方向移动的步长；Δｚｓｔｅｐ

表示机械臂末端沿Ｚ方向移动的步长。当Δｙｓｔｅｐ、Δｚｓｔｅｐ

大于０时，表明机械臂是沿着Ｙ、Ｚ轴正方向运动，与期望的运动方向相反。２４　基于力觉引导的ＤＤＰＧ算法框架

ＤＤＰＧ算法使用评估网络和目标网络两套神经网络来表示动作策略ａｃｔｏｒ和值函数ｃｒｉｔｉｃ。ａｃｔｏｒ接收从环境中获取的力误差状态Ｓ＝｛ΔＦｙ，ΔＦｚ，ΔＴｘ｝，根据策略π（θ），输出对应的动作变量Ａ＝｛ａｙ，ａｚ，θ６｝，ｃｒｉｔｉｃ网络根据当前状态和动作计算Ｑ值来评价动作的好坏，如图３

所示。

图３　算法流程

Ｆｉｇ．３　Ａｌｇｏｒｉｔｈｍｆｌｏｗｃｈａｒｔ

为了保证参数的收敛，ｔａｒｇｅｔ网络每一步会小幅度更新网

络参数，即软更新方式：

ｓｏｆｔｕｐｄａｔｅ

θＱ′←γθＱ＋（１－γ）θＱ′

θμ′←γ

θμ＋（１－γ）θμ{

′（１５）

其中：θμ为评估网络中ａｃｔｏｒμ（ｓ｜θμ

）的参数；θＱ为评估网络中

ｃｒｉｔｉｃＱ（ｓ，ａ｜θＱ

）的参数。评估网络中的ａｃｔｏｒ采用策略梯度的方法进行优化：

θμ

Ｊ≈１Ｎ∑ｉａ

Ｑ（ｓ，ａ｜θＱ） θμ

μ（ｓ｜θμ

）（１６）

评估网络中的ｃｒｉｔｉｃ采用均方根误差定义ｌｏｓｓ，然后使用

梯度下降进行更新：

ｌｏｓｓ＝

１Ｎ∑ｉ（ｙｉ

－Ｑ（ｓｉ，ａｉ

｜θＱ））２

ｙｉ＝ｒｉ＋γＱ′（ｓｉ＋１，μ′（ｓｉ＋１｜

θμ

′）｜θＱ′

）（１７）

算法１　基于力觉引导的的ＤＤＰＧ算法

输入：训练周期Ｅｐ；ｂａｔｃｈｓｉｚｅ；经验回放池大小Ｄ；ａｃｔｏｒ网络学习

率Ｌ

Ａ；ｃｒｉｔｉｃ网络学习率ＬＣ；衰减系数γ。输出：动作Ａ。

初始化：随机初始化网络参数θμ和θＱ并复制到θμ

′和θＱ′。ｆｏｒｅｐｉｓｏｄｅ＝１，Ｍｄｏ　初始化初始状态ｓ０　初始化奖励Ｒ＝０　ｆｏｒｉ＝１，Ｍ＿Ｓｄｏ

输入状态ｓｉ，用添加噪声ｖａｒ的策略选择动作ａｉ

，获得下一个状态ｓｉ＋１、奖励值Ｒｉ

。ｉｆ门把手角度＜－４５° 任务完成将四元组｛ｓｉ，ｓｉ＋１，ａｉ，Ｒｉ｝储存于经验回放池中ｉｆ存储数据达到经验回放池Ｄ大小从经验回放池取Ｎ组数据用于ａｃｔｏｒ和ｃｒｉｔｉｃ网络的训练最小化损失函数ｌｏｓｓ来更新ｃｒｉｔｉｃ中的评估网络依据 θμＪ梯度策略更新ａｃｔｏｒ中的评估网络ｓｉ＋１＝ｓｉＲ＝Ｒ＋ｒ更新ａｃｔｏｒ和ｃｒｉｔｉｃ中的目标网络

θＱ′←

γθＱ＋（１－γ）θＱ′

θμ′←γθμ＋（１－γ）θμ

′　ｅｎｄｆｏｒｅｎｄｆｏｒ

３　仿真实验

３１　仿真环境搭建

本文算法是在Ｕｂｕｎｔｕ１６．０４系统下，通过ＴｅｎｓｏｒＦｌｏｗ框架进行训练。使用３．６．２版本的ＶＲＥＰ软件建立门模型和ＵＲ５机械臂模型，将ＲＧ２夹具安装至ＵＲ５机械臂末端，ＢｕｌｌｅｔＰｈｙｓｉｃｓ２．７８包用于计算ＵＲ５机械臂动力学，机械臂运动过程中，ＶＲＥＰ内部逆运动学模块有路径规划作用。图４为机械臂和门初始状态，门模型始终处于ＹＺ平面上，机械臂末端初始化垂直于ＹＺ平面，便于夹握门把手。图５为机械臂末端旋拧门

把手状态。

图４初始状态

Ｆｉｇ．４　Ｉｎｉｔｉａｌｓｔａｔｅ图５　旋拧状态

Ｆｉｇ．５　Ｓｃｒｅｗｉｎｇｓｔａｔｅ

３２　算法训练

训练阶段，ｏｐｔｉｍｉｚｅｒ优化器采用的随机梯度下降学习率取

１０－４

，奖励衰减率取０．９，ｂａｔｃｈｓｉｚｅ取３５，回合数取１０００，经验回放池容量取６０００，评估网络和目标网络权值ω为随机初始

化，偏置ｂ初始化为１０－３

。在设置奖励的权重时，为了提高基础奖励的重要性，将λ设置为１．５。训练前，机械臂和门把手之间有间隔；仿真开始，机械臂末端根据ＶＲＥＰ内在的逆运动学模块进行路径规划，运动至门把手，并夹握门把手上距离旋

转副轴心８

０ｍｍ的位置；训练开始，机械臂夹握门把手运动，六维力传感器通过采集机械臂末端所受到的力来获取当前力误差状态，输入到ＤＤＰＧ算法中，根据ａｃｔｏｒ动作策略以及ｃｒｉｔｉｃ的评判获取动作，进行下一次机械臂与门把手的交互循环，直

·６０８１·计算机应用研究　

第３８卷

至旋拧门把手的角度至－π／４，即任务完成。为了避免在探索过程中，机械臂沿着不理想的方向运动时间过长，导致收敛速度变慢，设置了－１５００的奖励下限，当累计奖励Ｒ＜－１５００时，判定任务失败。如图６所示，（ａ）为机械臂在未设置引导性奖励的情况下，算法训练所获取的奖励值。可以看出，算法在第６１２个回合时，机械臂第一次完成任务，但是由于机械臂能够运动的路径非常多，探索过程非常缓慢，在训练１０００回合之后，算法无法收敛。由图６（ｂ）可以看出，在有引导性奖励的情况下，机械臂在３８６回合以后，算法逐渐开始收敛，并在６５０回合之后，逐渐稳定在－５００左右。由此可以看出，在有引导性奖励的情况下，算法收敛速度更快，

且更加稳定。

图６　算法训练的奖励值

Ｆｉｇ．６　Ｒｅｗａｒｄｖａｌｕｅｏｆａｌｇｏｒｉｔｈｍｔｒａｉｎｉｎｇ

３３　测试与评估

在仿真实验测试与评估阶段，设置了三种方法的旋拧门把手任务的对比实验，分别为迭代学习控制（ｉｔｅｒａｔｉｖｅｌｅａｒｎｉｎｇｃｏｎｔｒｏｌ，ＩＬＣ）［１９］、变阻抗控制（ｖａｒｉａｂｌｅｉｍｐｅｄａｎｃｅｃｏｎｔｒｏｌ，ＶＩＣ）［３，４］和基于力觉引导的自适应开门方法（ａｄａｐｔｉｖｅｆｏｒｃｅｃｏｎｔｒｏｌ，ＡＦＣ）。ＩＬＣ和ＶＩＣ方法在旋拧半径为８０ｍｍ的门把手任务中，调好模型参数，ＡＦＣ方法也在半径为８０ｍｍ的门把手位置，训练好模型，用于后续分别在半径为７０、８０ｍｍ的门把手位置进行测试。

测试阶段，将调整好参数的模型和已训练好的模型，分别用于半径为７０、８０ｍｍ的门把手位置上测试。图７（ａ）为半径８０ｍｍ的门把手上，三种方法完成任务的轨迹和一段半径为８０ｍｍ、圆心角为π／４的圆弧（ｄｅｓｉｒｅ）。可以看出，本文ＡＦＣ方法与期望的圆弧轨迹误差最小；图８（ｂ）为门把手半径７０ｍｍ处旋拧的轨迹，可以看出ＡＦＣ方法的轨迹与理想的圆弧轨迹有偏差，但是总体偏差不大，ＶＩＣ方法的轨迹效果最好。ＡＦＣ算法并未进行位置跟踪，主要通过控制力来适应环境，自动规划轨迹，

目的是尽可能使机械臂所受到的力最小。

图７　机械臂末端轨迹

Ｆｉｇ．７　Ｅｎｄｔｒａｃｋｏｆｍａｎｉｐｕｌａｔｏｒ

机械臂在能完成任务的情况下，所受到的力越小越好，保

证机械臂不受到损伤，本文中设置期望力的目的是让实际力有

一个收敛的方向，并且不能超过１５Ｎ。图８（ａ）所示，ＡＦＣ方法

的Ｙ轴方向实际力是逐渐收敛于期望力，始终处于（０，１０），小

于１５Ｎ，ＶＩＣ方法的力变化比较平缓，而ＩＬＣ方法的力变化范

围很大，部分已经超出了最大值１５Ｎ。从图８（ｂ）可以看出，

ＡＦＣ方法在半径８０ｍｍ的门把手上训练模型用于７０ｍｍ的门

把手位置测试，力变化更加平滑，任意一点的力前后变化范围

都在５Ｎ内，并且收敛于期望力，而ＩＬＣ和ＶＩＣ方法的力变化

呈现发散趋势，

适应性不好。

图８　Ｙ轴方向上的力跟踪

Ｆｉｇ．８　ＦｏｒｃｅｔｒａｃｋｉｎｇｉｎＹｄｉｒｅｃｔｉｏｎ

图９中，在Ｚ轴方向上，ＡＦＣ方法训练模型在两个半径的

门把手位置测试时，实际力逐渐都收敛于期望力，同时在旋拧

半径７０ｍｍ的门把手上，力未超出最大值，收敛效果较好。

ＶＩＣ在８０ｍｍ的门把手位置测试效果较好，在不改变参数的情

况下，在７０ｍｍ的门把手位置测试，力变化效果较差，部分位

置的力接近最大值，并且未收敛于期望力，适应环境能力较差。

相比于ＡＦＣ和ＩＬＣ方法，ＩＬＣ在两个半径的任务中表现不好，

相邻时刻的力变化幅度较大，容易引起机械臂在某一时刻，受

到的力过大，

导致机械臂损坏。

图９　Ｚ轴方向上的力跟踪

Ｆｉｇ．９　ＦｏｒｃｅｔｒａｃｋｉｎｇｉｎＺｄｉｒｅｃｔｉｏｎ

力矩跟踪的目的是为了设置引导性奖励，其次将其限制在

（－３，０），避免力矩过大使机械臂第六个关节角瞬时变化过

大，损坏机械臂。图１０所示，ＶＩＣ和ＡＦＣ在８０ｍｍ的门把手

位置，力矩控制效果较好，与期望力矩的误差控制在（０，１），但

在７０ｍｍ位置，ＶＩＣ的效果不如ＡＦＣ，ＶＩＣ的力矩呈发散趋势，

ＡＦＣ的力矩误差始终控制在（０，１），适应性很好。ＩＬＣ的力矩

变化幅度太大，

超过最大值。

图１０　Ｘ轴的转矩跟踪

Ｆｉｇ．１０　ＴｏｒｑｕｅｔｒａｃｋｉｎｇｏｆＸａｘｉｓ

图１１中，ＶＩＣ的角度变化曲线平缓，但是图８（ａ）中结束

状态的角度比期望结束状态的角度多８°，而图８（ｂ）中则多

２４°，误差较大。ＩＬＣ角度变化效果不如ＶＩＣ和ＡＦＣ，ＡＦＣ第六

个关节角θ

６

的结束状态θ

６

≈π／４，误差控制在（－４，４），说明

机械臂末端的位姿是跟随门把手角度的变化而变化的，从而验

证了算法具有位姿跟踪效果，并且跟踪效果较好。

在轨迹平滑程度上，ＡＦＣ算法效果略微比ＶＩＣ、ＩＬＣ算法

差，但是偏差不大，在可控范围内。在力和力矩控制以及角度

７

０

８

１

第６期蒋元陈，等：基于力觉引导的机械臂自适应开门旋拧方法　

变化控制上，ＡＦＣ算法优于ＩＬＣ和ＶＩＣ算法，特别在未知半径的门把手任务上，ＡＦＣ具有很强的适应性，能够根据力的大小，

自适应规划轨迹。

图１１　第六个关节角度

Ｆｉｇ．１１　Ｓｉｘｔｈｊｏｉｎｔａｎｇｌｅ

４　结束语

本文提出了一种基于力觉引导的机械臂自适应旋拧方法，是为了应对在核环境下，解决未知环境模型的机械臂开门任务的旋拧门把手部分。将机械臂与环境的交互过程定义为一个马尔可夫决策过程，通过深度神经网络建立力觉信息与机械臂末端位移和姿态变化的映射关系，利用Ｙ、Ｚ方向受力，建立函数关系，同时完成力与姿态的跟踪，设置引导性奖励函数加快算法的收敛速度。建立ＶＲＥＰ仿真环境与模型，进行仿真实验，得到门把手半径８０ｍｍ的训练模型，设置了对比实验，验证了ＡＦＣ算法在力和力矩控制上优于ＩＬＣ和ＶＩＣ算法，将模型用在半径７０ｍｍ的门把手上进行测试，从而验证算法的适应性；机械臂所受的力与力矩的未超出最大值，证明了算法的可靠性；奖励函数降低控制多个维度力的复杂性，随着回合数的增加，累计奖励逐渐收敛，证明了算法的有效性。

参考文献：

［１］姜珊珊，王帅．核辐射对环境的影响及安全防护对策［Ｊ］．环境与发展，２０２０，３２（

７）：３０３２．（ＪｉａｎｇＳｈａｎｓｈａｎ，ＷａｎｇＳｈｕａｉ．Ｔｈｅｉｎｆｌｕｅｎｃｅｏｆｎｕｃｌｅａｒｒａｄｉａｔｉｏｎｏｎｔｈｅｅｎｖｉｒｏｎｍｅｎｔａｎｄｔｈｅｃｏｕｎｔｅｒｍｅａｓｕｒｅｓｏｆｓａｆｅｔｙｐｒｏｔｅｃｔｉｏｎ［Ｊ］．ＥｎｖｉｒｏｎｍｅｎｔＤｅｖｅｌｏｐｍｅｎｔ，２０２０，３２（７）：３０３２．）

［２］韩金亮，任海菁，吴淞玮，等．基于多层注意力机制—柔性ＡＣ算法的机器人路径规划［Ｊ］．计算机应用研究，２０２０，３７（１２）：３６５０３６５５．（ＨａｎＪｉｎｌｉａｎｇ，ＲｅｎＨａｉｊｉｎｇ，ＷｕＳｏｎｇｗｅｉ，ｅｔａｌ．ＲｏｂｏｔｐａｔｈｐｌａｎｎｉｎｇｂａｓｅｄｏｎｓｏｆｔＡＣａｌｇｏｒｉｔｈｍｆｏｒｍｕｌｔｉｌａｙｅｒａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍｓ［Ｊ］．ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ，２０２０，３７（１２）：３６５０３６５５．）

［３］ＤｕａｎＪｉｎｊｕｎ，ＧａｎＹａｈｕｉ，ＣｈｅｎＭｉｎｇ，ｅｔａｌ．Ａｄａｐｔｉｖｅｖａｒｉａｂｌｅｉｍｐｅｄａｎｃｅｃｏｎｔｒｏｌｆｏｒｄｙｎａｍｉｃｃｏｎｔａｃｔｆｏｒｃｅｔｒａｃｋｉｎｇｉｎｕｎｃｅｒｔａｉｎｅｎｖｉｒｏｎｍｅｎｔ［Ｊ］．ＲｏｂｏｔｉｃｓａｎｄＡｕｔｏｎｏｍｏｕｓＳｙｓｔｅｍｓ，２０１８，１０２：５４６５．［４］ＣａｏＨｏｎｇｌｉ，ＣｈｅｎＸｉａｏ’ａｎ，ＨｅＹｅ，ｅｔａｌ．Ｄｙｎａｍｉｃａｄａｐｔｉｖｅｈｙｂｒｉｄｉｍｐｅｄａｎｃｅｃｏｎｔｒｏｌｆｏｒｄｙｎａｍｉｃｃｏｎｔａｃｔｆｏｒｃｅｔｒａ

ｃｋｉｎｇｉｎｕｎｃｅｒｔａｉｎｅｎｖｉｒｏｎｍｅｎｔｓ［ＥＢ／ＯＬ］．（２０１９０６）．ｈｔｔｐ：／／ｄｏｉ．ｏｒｇ／１０．１１０９／ＡＣＣＥＳＳ．２０１９．２９２４６９６．

［５］ＷｏｐｅｒｅｉｓＨＷ，ＨｏｅｋｓｔｒａＪＪ，ＰｏｓｔＴＨ，ｅｔａｌ．Ａｐｐｌｉｃａｔｉｏｎｏｆｓｕｂｓｔａｎｔｉａｌａｎｄｓｕｓｔａｉｎｅｄｆｏｒｃｅｔｏｖｅｒｔｉｃａｌｓｕｒｆａｃｅｓｕｓｉｎｇａｑｕａｄｒｏｔｏｒ［Ｃ］／／ＰｒｏｃｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＲｏｂｏｔｉｃｓａｎｄＡｕｔｏｍａｔｉｏｎ．２０１７：２７０４２７０９．

［６］ＧｒｉｂｏｖｓｋａｙａＥ，ＫｈｅｄｄａｒＡ，ＢｉｌｌａｒｄＡ．Ｍｏｔｉｏｎｌｅａｒｎｉｎｇａｎｄａｄａｐｔｉｖｅｉｍｐｅｄａｎｃｅｆｏｒｒｏｂｏｔｃｏｎｔｒｏｌｄｕｒｉｎｇｐｈｙｓｉｃａｌｉｎｔｅｒａｃｔｉｏｎｗｉｔｈｈｕｍａｎｓ［Ｃ］／／ＰｒｏｃｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＲｏｂｏｔｉｃｓ＆Ａｕｔｏｍａｔｉｏｎ．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥＰｒｅｓｓ，２０１１：４３２６４３３２．

［７］ＡｂｕＤａｋｋａＦＪ，ＬｅｏｎｅｌＲ，ＣａｌｄｗｅｌｌＤＧ．Ｆｏｒｃｅｂａｓｅｄｖａｒｉａｂｌｅｉｍｐｅｄａｎｃｅｌｅａｒｎｉｎｇｆｏｒｒｏｂｏｔｉｃｍａｎｉｐｕｌａｔ

ｉｏｎ［Ｊ］．ＲｏｂｏｔｉｃｓａｎｄＡｕｔｏｎｏｍｏｕｓＳｙｓｔｅｍｓ，２０１８，１０９：１５６１６７．

［８］刘岩．基于腕力传感器机械臂柔顺开门作业研究［Ｄ］．哈尔滨：哈尔滨理工大学，２０１７．（ＬｉｕＹａｎ．Ｒｅｓｅａｒｃｈｏｎｗｒｉｓｔｆｏｒｃｅ／ｔｏｒｑｕｅｓｅｎｓｏｒｒｅｓｅａｒｃｈｏｎｗｒｉｓｔｆｏｒｃｅ／ｔｏｒｑｕｅｓｅｎｓｏｒ［Ｄ］．Ｈａｒｂｉｎ：ＨａｒｂｉｎＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，２０１７．）

［９］ＷａｎｇＺｈｅｎｇ，ＬｉｕＸｉａｏｐｉｎｇ，ＬｉｕＫｅｆｕ，ｅｔａｌ．ＢａｃｋｓｔｅｐｐｉｎｇｂａｓｅｄＬｙａｐｕｎｏｖｆｕｎｃｔｉｏｎｃｏｎｓｔｒｕｃｔｉｏｎｕｓｉｎｇａｐｐｒｏｘｉｍａｔｅｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇａｎｄｓｕｍｏｆｓｑｕａｒｅｔｅｃｈｎｉｑｕｅｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＣｙｂｅｒｎｅｔｉｃｓ，２０１６，４７（１０）：３３９３３４０３．

［１０］ＷａｎｇＨａｏ，ＷａｎｇＺｈｉｆｅｎｇ，ＬｉｕＹａｎｊｕｎ，ｅｔａｌ．Ｆｕｚｚｙｔｒａｃｋｉｎｇａｄａｐｔｉｖｅｃｏｎｔｒｏｌｏｆｄｉｓｃｒｅｔｅｔｉｍｅｓｗｉｔｃｈｅｄｎｏｎｌｉｎｅａｒｓｙｓｔｅｍｓ［Ｊ］．ＦｕｚｚｙＳｅｔｓａｎｄＳｙｓｔｅｍｓ，２０１７，３１６：３５４８．

［１１］ＧａｓｐｅｒｓＢ，ＷｅｌｌｅＪ，ＳｃｈｕｌｚＤ．Ｏｐｅｎｉｎｇｄｏｏｒｓｗｉｔｈａｍｏｂｉｌｅｍａｎｉｐｕｌａｔｏｒｗｉｔｈｏｕｔｆｏｒｃｅｔｏｒｑｕｅｆｅｅｄｂａｃｋ［Ｃ］／／ＰｒｏｃｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＳａｆｅｔｙ，Ｓｅｃｕｒｉｔｙ，ａｎｄＲｅｓｃｕｅＲｏｂｏｔｉｃｓ．２０１３：１６．［１２］ＮｅｍｅｃＢ，ＺｌａｊｐａｈＬ，ＵｄｅＡ．Ｄｏｏｒｏｐｅｎｉｎｇｂｙｊｏｉｎｉｎｇｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇａｎｄｉｎｔｅｌｌｉｇｅｎｔｃｏｎｔｒｏｌ［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ１８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｄｖａｎｃｅｄＲｏｂｏｔｉｃｓ．２０１７．

［１３］ＹａｈｙａＡ，ＬｉＡ，ＫａｌａｋｒｉｓｈｎａｎＭ，ｅｔａｌ．Ｃｏｌｌｅｃｔｉｖｅｒｏｂｏｔｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｗｉｔｈｄｉｓｔｒｉｂｕｔｅｄａｓｙｎｃｈｒｏｎｏｕｓｇｕｉｄｅｄｐｏｌｉｃｙｓｅａｒｃｈ［Ｃ］／／ＰｒｏｃｏｆＩＥＥＥ／ＲＳＪＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｔＲｏｂｏｔｓ＆Ｓｙｓｔｅｍｓ．２０１７．

［１４］ＰｅｒｒｕｓｑｕíａＡ，ＹｕＷｅｎ，ＳｏｒｉａＡ．Ｐｏｓｉｔｉｏｎ／ｆｏｒｃｅｃｏｎｔｒｏｌｏｆｒｏｂｏｔｍａｎｉｐｕｌａｔｏｒｓｕｓｉｎｇｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ［Ｊ］．ＩｎｄｕｓｔｒｉａｌＲｏｂｏｔ，２０１９，４６（２）：２６７２８０．

［１５］郭宪，方勇纯．深入浅出强化学习：原理入门［Ｍ］．北京：电子工业出版社，２０１８．（ＧｕｏＸｉａｎ，ＦａｎｇＹｏｎｇｃｈｕｎ．Ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｉｎａｓｉｍｐｌｅｗａｙ：ｉｎｔｒｏｄｕｃｔｉｏｎｔｏｐｒｉｎｃｉｐｌｅｓ［Ｍ］．Ｂｅｉｊｉｎｇ：ＰｕｂｌｉｓｈｉｎｇＨｏｕｓｅｏｆＥｌｅｃｔｒｏｎｉｃｓＩｎｄｕｓｔｒｙ，２０１８．）

［１６］ＤｕａｎＹａｎ，ＣｈｅｎＸｉ，ＨｏｕｔｈｏｏｆｔＲ，ｅｔａｌ．Ｂｅｎｃｈｍａｒｋｉｎｇｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｆｏｒｃｏｎｔｉｎｕｏｕｓｃｏｎｔｒｏｌ［Ｃ］／／ＰｒｏｃｏｆＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．２０１６．

［１７］ＬｉｌｌｉｃｒａｐＴＰ，ＨｕｎｔＪＪ，ＰｒｉｔｚｅｌＡ，ｅｔａｌ．Ｃｏｎｔｉｎｕｏｕｓｃｏｎｔｒｏｌｗｉｔｈｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ［ＥＢ／ＯＬ］．（２０１９０７０５）．ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１５０９．０２９７１．

［１８］ＡｎｄｒｙｃｈｏｗｉｃｚＭ，ＤｅｎｉｌＭ，ＧｏｍｅｚＳ，ｅｔａｌ．Ｌｅａｒｎｉｎｇｔｏｌｅａｒｎｂｙｇｒａｄｉｅｎｔｄｅｓｃｅｎｔｂｙｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ［Ｃ

］／／ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．２０１６：３９８１３９８９．

［１９］ＹｏｖｃｈｅｖＫ，ＤｅｌｃｈｅｖＫ，ＫｒａｓｔｅｖＥ．Ｃｏｎｓｔｒａｉｎｅｄｏｕｔｐｕｔｉｔｅｒａｔｉｖｅｌｅａｒｎｉｎｇｃｏｎｔｒｏｌ［Ｊ］．ＡｒｃｈｉｖｅｓｏｆＣｏｎｔｒｏｌＳｃｉｅｎｃｅｓ，２０２０，３０（１）：１５７１７６．

（上接第１８０３页）

［１９］施俊屹，查富生，孙立宁，等．移动机器人视觉惯性ＳＬＡＭ研究进展［Ｊ］．机器人，２０２０，４２（６）：７３４７４８．（ＳｈｉＪｕｎｙｉ，ＺｈａＦｕｓｈｅｎｇ，ＳｕｎＬｉｎｉｎｇ，ｅｔａｌ．ＳｕｒｖｅｙｏｆｖｉｓｕａｌｉｎｅｒｔｉａｌＳＬＡＭｆｏｒｍｏｂｉｌｅｒｏｂｏｔｓ［Ｊ］．Ｒｏｂｏｔ，２０２０，４２（６）：７３４７４８．）

［２０］ＴｒｉｇｇｓＢ，ＭｃＬａｕｃｈｌａｎＰＦ，ＨａｒｔｌｅｙＲＩ，ｅｔａｌ．Ｂｕｎｄｌｅａｄｊｕｓｔｍｅｎｔ：ａｍｏｄｅｒｎｓｙｎｔｈｅｓｉｓ［Ｃ］／／ＰｒｏｃｏｆＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＶｉｓｉｏｎＡｌｇｏｒｉｔｈｍｓ：ＴｈｅｏｒｙａｎｄＰｒａｃｔｉｃｅ．Ｂｅｒｌｉｎ：ＳｐｒｉｎｇｅｒＶｅｒｌａｇ，１９９９：２９８３７２．［２１］徐晓苏，代维，杨博，等．室内环境下基于图优化的视觉惯性ＳＬＡＭ方法［Ｊ］．中

国惯性技术学报，２０１７，２５（３）：３１３３１９．（ＸｕＸｉａｏｓｕ，ＤａｉＷｅｉ，ＹａｎｇＢｏ，ｅｔａｌ．ＶｉｓｕａｌａｉｄｉｎｅｒｔｉａｌＳＬＡＭｍｅｔｈｏｄｂａｓｅｄｏｎｇｒａｐｈｏｐｔｉｍｉｚａｔｉｏｎｉｎｉｎｄｏｏｒ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅＩｎｅｒｔｉａｌＴｅｃｈｎｏｌｏｇｙ，２０１７，２５（３）：３１３３１９．）

［２２］ＦｏｒｓｔｅｒＣ，ＣａｒｌｏｎｅＬ，ＤｅｌｌａｅｒｔＦ，ｅｔａｌ．Ｏｎｍａｎｉｆｏｌｄｐｒｅｉｎｔｅｇｒａｔｉｏｎｆｏｒｒｅａｌｔｉｍｅｖｉｓｕａｌｉｎｅｒｔｉａｌｏｄｏｍｅｔｒｙ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＲｏｂｏｔｉｃｓ，２０１７，３３（１）：１２１．

［２３］ＤｕｂｂｅｌｍａｎＧ，ＢｒｏｗｎｉｎｇＢ．ＣＯＰＳＬＡＭ：ｃｌｏｓｅｄｆｏｒｍｏｎｌｉｎｅｐｏｓｅ

ｃｈａｉｎｏｐｔｉｍｉｚａｔｉｏｎｆｏｒｖｉｓｕａｌＳＬＡＭ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＲｏｂｏｔｉｃｓ，２０１５，３１（５）：１１９４１２１３．

［２４］ＧａｌｖｅｚＬｐｅｚＤ，ＴａｒｄｏｓＪＤ．Ｂａｇｓｏｆｂｉｎａｒｙｗｏｒｄｓｆｏｒｆａｓｔｐｌａｃｅｒｅｃｏｇｎｉｔｉｏｎｉｎｉｍａｇｅｓｅｑｕｅｎｃｅｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＲｏｂｏｔｉｃｓ，２０１２，２８（５）：１１８８１１９７．

［２５］ＣｌａｕｓｅｎＪ．Ｂｒａｎｃｈａｎｄｂｏｕｎｄａｌｇｏｒｉｔｈｍｓ：ｐｒｉｎｃｉｐｌｅｓａｎｄｅｘａｍｐｌｅｓ［Ｊ］．Ｃｏｍｐｕｔｅｒ，１９９９，２２（５）：６５８６６３．

［２６］ＲｅｈｄｅｒＪ，ＮｉｋｏｌｉｃＪ，ＳｃｈｎｅｉｄｅｒＴ，ｅｔａｌ．Ｅｘｔｅｎｄｉｎｇｋａｌｉｂｒ：ｃａｌｉｂｒａｔｉｎｇｔｈｅｅｘｔｒｉｎｓｉｃｓｏｆｍｕｌｔｉｐｌｅＩＭＵｓａｎｄｏｆｉｎｄｉｖｉｄｕａｌａｘｅｓ［Ｃ］／／ＰｒｏｃｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＲｏｂｏｔｉｃｓ＆Ａｕｔｏｍａｔｉｏｎ．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥＰｒｅｓｓ，２０１６：４３０４４３１１．

［２７］张国强，韩军，陈方杰，等．一种在激光雷达无回波区域的地图构建算法［Ｊ］．计算机应用研究，２０１９，３６（１２）：３８７４３８７７．（ＺｈａｎｇＧｕｏｑｉａｎｇ，ＨａｎＪｕｎ，ＣｈｅｎＦａｎｇｊｉｅ，ｅｔａｌ．ＭａｐｂｕｉｌｄｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｎｏｎｅｃｈｏｒｅｇｉｏｎｏｆＬｉＤＡＲ［Ｊ］．ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ，２０１９，３６（１２）：３８７４３８７７．）

８

０

８

１

·计算机应用研究　第３８卷

本文发布于:2023-05-05 20:17:37，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/82/534531.html

上一篇：最新学生听课心得体会学生听课心得体会1000字左右(6篇)

下一篇：2023年幼儿园小班教师个人工作总结幼儿园小班教师个人工作计划(七篇)