收稿日期:2020 06 05;修回日期:2020 07 27 基金项目:国家“十三五”核能开发项目(20161295);国家科技重大专项(2019ZX06002022)作者简介:蒋元陈(1995 ),男,四川达州人,硕士研究生,主要研究方向为机器人控制、深度强化学习(1477361807@qq.com);刘宏伟(1982 ),男(通信作者),河北大城人,讲师,硕士,主要研究方向为机器人自主作业技术(liuhongwei@swust.edu.cn);刘满禄(1981 ),男,山西朔州人,讲师,硕导,主要研究方向为机器人遥操作与容错控制;张俊俊(1961 ),女,内蒙古人,教授,硕导,主要研究方向为机电液系统控制研究.
基于力觉引导的机械臂自适应开门旋拧方法
蒋元陈1a,1b,刘宏伟1c ,刘满禄1b,2,张俊俊1
a
(1.西南科技大学a.制造科学与工程学院;b.特殊环境机器人技术四川省重点实验室;c.信息工程学院,
四川绵阳621000;2.中国科学技术大学信息科学技术学院,合肥230026)摘 要:针对核应急环境中,环境模型未知、人工开门危险性较大的问题,提出了一种基于力觉引导的机械臂自适应
开门旋拧方法。该方法通过机械臂末端的六维力传感器获得力和力矩信息,将实际力或力矩与期望力或力矩之间的差值作为深度确定性策略梯度算法的状态输入,同时输出动作;利用机械臂末端所受两个方向力的函数关系,设置基础奖励函数,通过机械臂的期望运动方向,设置引导性奖励函数,使机械臂自动适应力与力矩的变化,完成旋拧门把手任务。仿真数据结果表明,在有引导性奖励的情况下,基于力觉引导的机械臂自适应旋拧方法能够在更短的时间内达到收敛,完成机械臂旋拧门把手的任务。关键词:深度强化学习;力觉引导;自适应方法;奖励函数中图分类号:TP18 文献标志码:A 文章编号:1001 3695(2021)06 038 1804 05doi:10.19734/j.issn.1001 3695.2020.06.0251
Adaptiveopeningandscrewingmethodofmanipulatorbasedonforceguidance
JiangYuanchen1a,1b,LiuHongwei1c ,LiuManlu1b,2,ZhangJunjun
1a
(1.a.SchoolofManufacturingScience&Engineering,b.RobotTechnologyUsedforSpecialEnvironment
KeyLaboratoryofSichuanProvince,c.SchoolofInformationEngineering,SouthwestUniversityofScience&Technology,MianyangSichuan621000,China;2.SchoolofInforma tionScience&Technology,UniversityofScience&TechnologyofChina,Hefei230026,China)
Abstract:Intheuncertainnuclearenvironment,themanualdooropeningisdangerous.Thispaperproposedanadaptiveope
ningandscrewingmethodofmanipulatorbasedonforcesenseguidance.Thesix dimensionalforcesensorcouldobtaintheforceandmomentinformationattheendofthemanipulator.Itinputthedifferencebetweentheactualforceortorqueandtheexpec
tedforceortorqueintodeepdeterministicpolicygradientalgorithm
,outputactionsatthesametime.Thismethodusedthefunctionrelationshipbetweenthetwodirectionforcesattheendofthemanipulatortosetthebasicrewardfunctionandusedtheexpectedmovementdirectionofthemanipulatortosettheguidedrewardfunction,forthemanipulatorcouldautomaticallyadapt
tothechangeofthemomentandthestress
,andcompletedthetaskofscrewingthedoorhandle.Theexperimentalresultsshowthattheself adaptiverotationmethodbasedonforceguidancecanachieveconvergenceinashortertimeandcompletethetaskofrotatingthedoorhandle.Keywords:deepreinforcementlearning;forceguided;adaptivemethod;rewardfunction
0 引言
因核辐射[1]
对人体会造成损伤,以核应急、核运维、核退役为代表的非结构化环境需要机器人代替人执行相关作业、处置任务。传统结构化环境机器人任务执行算法难以适应以上复杂的任务和环境,需要通过改进算法,进一步提升机器人系统的环境和任务适应性。以核退役与应急中典型的开门任务为例,因任务对象的不确定、任务过程多变,无法做到每次开门能够规范化操作。本文通过自适应强化学习算法,提高机器人适应环境的能力。
经典控制方法,如比例—积分—微分控制、鲁棒控制、轨迹规划[2]
、自适应控制对控制精度要求较高,难以完成非结构化环境下的任务,为此学者对控制方法进行改进,以获得更好的
机械臂控制效果。文献[
3,4]提出了自适应变阻抗控制方法,用于解决环境未知情况下的接触任务力跟踪问题。Wo
pereis等人[5]
在状态反馈中加入线性二次型调节器,以实现对连续
接触力的控制。文献[
6]提出了一种将自适应控制和传统阻抗控制相结合的算法,从而实现了算法对力的有效跟踪。Adu
Dakka
等人[7]
提出一个结合力感测与变阻抗控制来学习基于力的变刚度技巧的示范学习框架,该方法从人为演示中估计完整的刚度矩阵,然后这些矩阵与感测到的力一起作用于编码任
务的概率模型。刘岩[
8]
提出了一种基于信息不完整的开门方法,该方法采用柔性运动控制和力控制来克服不确定信息的限制,在应用柔顺运动控制的同时估计门把手的转动点的中心,
以便完成门把手的扭转动作。Wang等人[9]
提出了一种构造反馈系统的Lyapunov函数,从而得到稳定的控制器。Wang等人[
10]
使用李雅普诺夫方程和模糊控制来拟合非线性函数,减少了非线性系统中机械臂参数在线调节的次数。Gaspers等人[11]
提出了一种无力反馈的开门方法,建立与环境相同的三维模型,机器人便可以根据模型自动规划轨迹。Nemec等人[12]
针对整个开门过程中的推拉门动作提出了一种使用深度强化学习结合力传感器采集的数据训练来寻找运动过程中受
力最小的方向。Y
ahya等人[13]
提出了一种分布式异步策略学习的方法,使用多台机械臂进行训练,提高样本的数量和多样
性。Perrusquía等人[14]
提出了一种非结构化环境下利用深度强化学习学习期望力,然后导纳控制生成期望位置自动适应环
第38卷第6期2021年6月 计算机应用研究
ApplicationResearchofComputersVol 38No 6
Jun.2021
境来控制机械臂的方法。
以上方法能够解决部分已知和未知环境模型的开门任务。但针对门把手半径不确定,同时机械臂末端能自适应受力变化和位姿跟踪等问题,研究较少且难以实际应用。考虑到这些问题,本文提出一种基于力觉引导的机械臂自适应开门旋拧方法,利用力传感器获取机械臂末端力觉信息,输入到神经网络中进行训练,设置力误差基础奖励和加快算法收敛的引导性奖励,通过回报奖励大小获取机械臂末端最佳的位移和姿态,以达到自适应环境的目标。本文主要工作有:a)利用V REP环境建立机械臂模型,定义机械臂与环境交互的数学模型;b)使用深度神经网络建立力误差状态与机械臂末端位移的映射关系;c)利用机械臂末端受力的函数关系和所获取的力觉信息设置奖励函数,避免控制多维力的复杂性,加快算法收敛。
1 环境模型
本文环境包括UR5机械臂和门模型两个部分,深度强化
学习算法与环境相互作用,通过不断试错进行优化,模拟旋拧门把手的过程。1 1 机械臂模型
根据旋量理论的指数积公式对UR5机械臂建立数学模
型,如图1所示,
设定机械臂的每个关节的方向、位置和末端初始位姿。建立六个关节旋转轴单位矢量为
τ=[τ1,τ2,τ3,τ4,τ5,τ6
]=0000000-1-1-1-1-1
1
0
0
0
1
0(
1)六个关节旋转轴的位置矢量为
pT=p1,p2,p3,p4,p5,p[
]6T=00000L100L1+a200L1+a2+a30-a4L1+a2+a30-a4L1+a2+a3+L
5(2)机械臂末端初始位姿为
T6
1
(0)=-100
0
00-1-a4-L6
0-10L1+a2+a3+L5
0
0
0
1
(3)
关节运动旋量为
ξi=
-τi×pi
τi
(4)
根据Rodrigues公式,UR5机械臂正运动学POE公式为
T61(θ)=eθ1ξ1eθ2ξ2eθ3ξ3eθ4ξ4eθ5ξ5eθ6ξ6T61
(0)(5)
其中:ξi为关节单位运动旋量;τ中每一列表示关节旋转轴ξi
的旋转方向的单位矢量;pT
中每一行表示关节旋转轴ξi的位置矢量。
1 2 马尔可夫决策模型
在旋拧门把手的过程中,机械臂的状态与动作之间存在映射关系,即下一个状态取决于当前状态和当前动作,其数学模型是一个典型的马尔可夫决策过程(Markovdecisionprocess,
MDP)[15]
。本节使用马尔可夫决策过程对机械臂旋拧门把手
进行建模。此过程主要分为四个部分,即状态集合S
、动作集合A、状态转移概率P和奖励回报R。在旋拧的过程中,机械臂作为智能体,在某一时刻t,机械臂所受的力以及门把手旋转
的角度都会对应一个状态st,机械臂根据策略π(st
)以概率P(st+1|st)选择动作at,执行动作at之后,
机械臂所受的力以及门把手旋转的角度将会进入一个新的状态st+1
,机械臂得到奖励Rat(st
+1|st)。深度强化学习的目标就是找到一个最优策略π
,使从t时刻到任务结束时,得到最大的奖励回报。
Gt=Rt+γRt+1+…=∑∞
k=0γk
Rt+k+1
(6)
2 基于力觉引导的机械臂自适应旋拧方法
机械臂在执行开门旋拧任务时,会和门把手产生接触,对
机械臂的位形有极大的约束,因此不可避免会产生接触力。接触力过大会对机械臂的关节造成很大的损伤,从而影响机械臂的精度,导致机械臂不能正常工作。使用六维力传感器实时获取机械臂末端与环境的接触力,结合深度强化学习的决策能力,能够保护机械臂本身的安全。更重要的是,通过对多元力信息的分解和利用,在引导机械臂运动方向的前提下,可以规划出一条更加高效、顺滑的机械臂运动轨迹。本节采用的深度强
化学习算法是深度确定性策略梯度算法(
deepdeterministicpoli cygradient
,DDPG)[16~18]
,利用力觉信息,结合深度强化学习强大的非线性拟合能力以及决策能力,能够提高适应环境的能力。2 1 力觉信息运用
通过UR5机械臂上的力传感器实时采集力和力矩信息,与设定的期望力和期望力矩之差输入到DDPG神经网络中训练,不断地优化力误差,更新网络参数,使实际力和力矩逐渐收敛于期望力和力矩,保证机械臂不会因为过大的力和力矩,对机械臂造成损伤。
UR5机械臂旋拧门把手的过程是在Y Z平面上进行的,需
要通过同时控制沿Y
、Z轴两个方向的力来实现力控制策略。两个维度的力组合情况较多,为了避免使用多个维度的力进行奖惩的复杂性,本节的力觉使用主要通过控制Y方向的力误差,通过Y、Z方向力的函数关系,用Z方向的力把Y方向的力表示出来作为Y方向的期望力。而且Y、Z方向力的函数关系中也
涉及到机械臂末端绕X轴的旋转角,
即第六个关节角度,通过一个表达式同时限制了Y
、Z方向的力以及机械臂末端姿态的变化,既避免了使用多个维度的力进行奖惩的复杂性,也同时跟踪了机械臂末端姿态的变化,防止机械臂末端产生过大的扭矩。
状态主要由三个部分组成,分别是Y方向的力误差,
Z方向的力误差,以及绕着X轴的力矩误差。计算Y方向的力误差时,需要找到Y、Z方向力的关系,在不考虑重力的情况下,根据机械臂旋拧门把手的过程,进行机械臂受力的分析,如图2所示。在期望状态下,机械臂旋拧门把手沿着理想的圆弧轨迹运行,机械臂末端会沿Y、Z轴两个方向运动,必然会受到门把手向Y、Z方向的两个反作用力,两者应满足如下关系:
Fyd=Fze×
tanα(7)
又因为在期望状态下,机械臂手爪的姿态也始终应与门把手成
90°夹角,机械臂手爪的旋转角度θ等于门把手的旋转角度α,即
α=θ
(8)把Fyd
作为Y方向的期望力,则Y方向的力误差为ΔFy=Fye-Fyd
(9)Z方向的力误差:
ΔFz=Fze-Fzd
(10)绕着X轴的力矩误差:
ΔTx=Txe-Txd
(11)
在当前状态下,Fye表示Y方向的实际力,Fyd
表示Y方向的期望力,Fze表示Z方向的实际力,Fzd表示Z方向的期望力,Txe表示绕X轴的实际力矩,Txd表示绕X轴的期望力矩。2 2 动作设定
机械臂旋拧门把手的过程中,机械臂在Y Z同一平面上进行运动。因此DDPG的输出动作也为3维,动作空间A:包括Y方向上的位移ay,Z方向上的位移az,以及机械臂的第六个关节角位移θ6
。·5081·第6期蒋元陈,等:基于力觉引导的机械臂自适应开门旋拧方法
图1 V REPUR5机械臂模型Fig.1 V REPUR5manipulatormodel图2 机械臂末端受力分析
Fig.2 Analysisoftheforceonthe
endofthemanipulator
2 3 奖惩函数设定
奖励设计主要包括基础奖励和引导性奖励两个部分。
在基础奖惩部分,机械臂夹持住门把手运动的过程中需要对每一时间步进行即时评价,令DDPG算法逐渐学习到奖励值高的策略,优化力误差,减少机械臂因为力过大而造成损伤。因此,将Y方向的力误差的绝对值取负,作为基础奖惩部分的评价依据,如式(12)所示。
rb=-λ|ΔFy|
(12)
为了加快深度强化学习模型训练效率,在奖惩函数中加入了引导性奖励部分,根据力误差所处的区间和当前实际力的大小给予不同的奖励进行引导,如式(13)所示。
rg1=5ΔFy<5,ΔFz≤2,ΔTx<22ΔFy<5,2<ΔFz<5,ΔTx<205≤ΔFz
≤
15(13)
为了防止机械臂初始探索移动方向与期望方向相反或偏
差过大,以及力传感器采集到的实时力过大时,可以对其适当设置惩罚,如式(14)所示。
rg2=-10Δystep>0orΔzstep>0-10Fye<-5orFze<-5-20Fye>15orFze>15orTxe
>
10(14)
其中:Δystep表示机械臂末端沿Y方向移动的步长;Δzstep
表示机械臂末端沿Z方向移动的步长。当Δystep、Δzstep
大于0时,表明机械臂是沿着Y、Z轴正方向运动,与期望的运动方向相反。2 4 基于力觉引导的DDPG算法框架
DDPG算法使用评估网络和目标网络两套神经网络来表示动作策略actor和值函数critic。actor接收从环境中获取的力误差状态S={ΔFy,ΔFz,ΔTx},根据策略π(θ),输出对应的动作变量A={ay,az,θ6},critic网络根据当前状态和动作计算Q值来评价动作的好坏,如图3
所示。
图3 算法流程
Fig.3 Algorithmflowchart
为了保证参数的收敛,target网络每一步会小幅度更新网
络参数,即软更新方式:
softupdate
θQ′←γθQ+(1-γ)θQ′
θμ′←γ
θμ+(1-γ)θμ{
′(15)
其中:θμ为评估网络中actorμ(s|θμ
)的参数;θQ为评估网络中
criticQ(s,a|θQ
)的参数。评估网络中的actor采用策略梯度的方法进行优化:
θμ
J≈1N∑i a
Q(s,a|θQ) θμ
μ(s|θμ
)(16)
评估网络中的critic采用均方根误差定义loss,然后使用
梯度下降进行更新:
loss=
1N∑i(yi
-Q(si,ai
|θQ))2
yi=ri+γQ′(si+1,μ′(si+1|
θμ
′)|θQ′
)(17)
算法1 基于力觉引导的的DDPG算法
输入:训练周期Ep;batchsize;经验回放池大小D;actor网络学习
率L
A;critic网络学习率LC;衰减系数γ。输出:动作A。
初始化:随机初始化网络参数θμ和θQ并复制到θμ
′和θQ′。forepisode=1,Mdo 初始化初始状态s0 初始化奖励R=0 fori=1,M_Sdo
输入状态si,用添加噪声var的策略选择动作ai
,获得下一个状态si+1、奖励值Ri
。 if门把手角度<-45° 任务完成 将四元组{si,si+1,ai,Ri}储存于经验回放池中 if存储数据达到经验回放池D大小 从经验回放池取N组数据用于actor和critic网络的训练 最小化损失函数loss来更新critic中的评估网络 依据 θμJ梯度策略更新actor中的评估网络 si+1=si R=R+r 更新actor和critic中的目标网络
θQ′←
γθQ+(1-γ)θQ′
θμ′←γθμ+(1-γ)θμ
′ endforendfor
3 仿真实验
3 1 仿真环境搭建
本文算法是在Ubuntu16.04系统下,通过TensorFlow框架进行训练。使用3.6.2版本的V REP软件建立门模型和UR5机械臂模型,将RG2夹具安装至UR5机械臂末端,BulletPhysics2.78包用于计算UR5机械臂动力学,机械臂运动过程中,V REP内部逆运动学模块有路径规划作用。图4为机械臂和门初始状态,门模型始终处于Y Z平面上,机械臂末端初始化垂直于Y Z平面,便于夹握门把手。图5为机械臂末端旋拧门
把手状态。
图4初始状态
Fig.4 Initialstate图5 旋拧状态
Fig.5 Screwingstate
3 2 算法训练
训练阶段,optimizer优化器采用的随机梯度下降学习率取
10-4
,奖励衰减率取0.9,batchsize取35,回合数取1000,经验回放池容量取6000,评估网络和目标网络权值ω为随机初始
化,偏置b初始化为10-3
。在设置奖励的权重时,为了提高基础奖励的重要性,将λ设置为1.5。训练前,机械臂和门把手之间有间隔;仿真开始,机械臂末端根据V REP内在的逆运动学模块进行路径规划,运动至门把手,并夹握门把手上距离旋
转副轴心8
0mm的位置;训练开始,机械臂夹握门把手运动,六维力传感器通过采集机械臂末端所受到的力来获取当前力误差状态,输入到DDPG算法中,根据actor动作策略以及critic的评判获取动作,进行下一次机械臂与门把手的交互循环,直
·6081·计算机应用研究
第38卷
至旋拧门把手的角度至-π/4,即任务完成。为了避免在探索过程中,机械臂沿着不理想的方向运动时间过长,导致收敛速度变慢,设置了-1500的奖励下限,当累计奖励R<-1500时,判定任务失败。如图6所示,(a)为机械臂在未设置引导性奖励的情况下,算法训练所获取的奖励值。可以看出,算法在第612个回合时,机械臂第一次完成任务,但是由于机械臂能够运动的路径非常多,探索过程非常缓慢,在训练1000回合之后,算法无法收敛。由图6(b)可以看出,在有引导性奖励的情况下,机械臂在386回合以后,算法逐渐开始收敛,并在650回合之后,逐渐稳定在-500左右。由此可以看出,在有引导性奖励的情况下,算法收敛速度更快,
且更加稳定。
图6 算法训练的奖励值
Fig.6 Rewardvalueofalgorithmtraining
3 3 测试与评估
在仿真实验测试与评估阶段,设置了三种方法的旋拧门把手任务的对比实验,分别为迭代学习控制(iterativelearningcontrol,ILC)[19]、变阻抗控制(variableimpedancecontrol,VIC)[3,4]和基于力觉引导的自适应开门方法(adaptiveforcecontrol,AFC)。ILC和VIC方法在旋拧半径为80mm的门把手任务中,调好模型参数,AFC方法也在半径为80mm的门把手位置,训练好模型,用于后续分别在半径为70、80mm的门把手位置进行测试。
测试阶段,将调整好参数的模型和已训练好的模型,分别用于半径为70、80mm的门把手位置上测试。图7(a)为半径80mm的门把手上,三种方法完成任务的轨迹和一段半径为80mm、圆心角为π/4的圆弧(desire)。可以看出,本文AFC方法与期望的圆弧轨迹误差最小;图8(b)为门把手半径70mm处旋拧的轨迹,可以看出AFC方法的轨迹与理想的圆弧轨迹有偏差,但是总体偏差不大,VIC方法的轨迹效果最好。AFC算法并未进行位置跟踪,主要通过控制力来适应环境,自动规划轨迹,
目的是尽可能使机械臂所受到的力最小。
图7 机械臂末端轨迹
Fig.7 Endtrackofmanipulator
机械臂在能完成任务的情况下,所受到的力越小越好,保
证机械臂不受到损伤,本文中设置期望力的目的是让实际力有
一个收敛的方向,并且不能超过15N。图8(a)所示,AFC方法
的Y轴方向实际力是逐渐收敛于期望力,始终处于(0,10),小
于15N,VIC方法的力变化比较平缓,而ILC方法的力变化范
围很大,部分已经超出了最大值15N。从图8(b)可以看出,
AFC方法在半径80mm的门把手上训练模型用于70mm的门
把手位置测试,力变化更加平滑,任意一点的力前后变化范围
都在5N内,并且收敛于期望力,而ILC和VIC方法的力变化
呈现发散趋势,
适应性不好。
图8 Y轴方向上的力跟踪
Fig.8 ForcetrackinginYdirection
图9中,在Z轴方向上,AFC方法训练模型在两个半径的
门把手位置测试时,实际力逐渐都收敛于期望力,同时在旋拧
半径70mm的门把手上,力未超出最大值,收敛效果较好。
VIC在80mm的门把手位置测试效果较好,在不改变参数的情
况下,在70mm的门把手位置测试,力变化效果较差,部分位
置的力接近最大值,并且未收敛于期望力,适应环境能力较差。
相比于AFC和ILC方法,ILC在两个半径的任务中表现不好,
相邻时刻的力变化幅度较大,容易引起机械臂在某一时刻,受
到的力过大,
导致机械臂损坏。
图9 Z轴方向上的力跟踪
Fig.9 ForcetrackinginZdirection
力矩跟踪的目的是为了设置引导性奖励,其次将其限制在
(-3,0),避免力矩过大使机械臂第六个关节角瞬时变化过
大,损坏机械臂。图10所示,VIC和AFC在80mm的门把手
位置,力矩控制效果较好,与期望力矩的误差控制在(0,1),但
在70mm位置,VIC的效果不如AFC,VIC的力矩呈发散趋势,
AFC的力矩误差始终控制在(0,1),适应性很好。ILC的力矩
变化幅度太大,
超过最大值。
图10 X轴的转矩跟踪
Fig.10 TorquetrackingofX axis
图11中,VIC的角度变化曲线平缓,但是图8(a)中结束
状态的角度比期望结束状态的角度多8°,而图8(b)中则多
24°,误差较大。ILC角度变化效果不如VIC和AFC,AFC第六
个关节角θ
6
的结束状态θ
6
≈π/4,误差控制在(-4,4),说明
机械臂末端的位姿是跟随门把手角度的变化而变化的,从而验
证了算法具有位姿跟踪效果,并且跟踪效果较好。
在轨迹平滑程度上,AFC算法效果略微比VIC、ILC算法
差,但是偏差不大,在可控范围内。在力和力矩控制以及角度
·
7
0
8
1
·
第6期蒋元陈,等:基于力觉引导的机械臂自适应开门旋拧方法
变化控制上,AFC算法优于ILC和VIC算法,特别在未知半径的门把手任务上,AFC具有很强的适应性,能够根据力的大小,
自适应规划轨迹。
图11 第六个关节角度
Fig.11 Sixthjointangle
4 结束语
本文提出了一种基于力觉引导的机械臂自适应旋拧方法,是为了应对在核环境下,解决未知环境模型的机械臂开门任务的旋拧门把手部分。将机械臂与环境的交互过程定义为一个马尔可夫决策过程,通过深度神经网络建立力觉信息与机械臂末端位移和姿态变化的映射关系,利用Y、Z方向受力,建立函数关系,同时完成力与姿态的跟踪,设置引导性奖励函数加快算法的收敛速度。建立V REP仿真环境与模型,进行仿真实验,得到门把手半径80mm的训练模型,设置了对比实验,验证了AFC算法在力和力矩控制上优于ILC和VIC算法,将模型用在半径70mm的门把手上进行测试,从而验证算法的适应性;机械臂所受的力与力矩的未超出最大值,证明了算法的可靠性;奖励函数降低控制多个维度力的复杂性,随着回合数的增加,累计奖励逐渐收敛,证明了算法的有效性。
参考文献:
[1]姜珊珊,王帅.核辐射对环境的影响及安全防护对策[J].环境与发展,2020,32(
7):30 32.(JiangShanshan,WangShuai.Thein fluenceofnuclearradiationontheenvironmentandthecountermea suresofsafetyprotection[J].EnvironmentDevelopment,2020,32(7):30 32.)
[2]韩金亮,任海菁,吴淞玮,等.基于多层注意力机制—柔性AC算法的机器人路径规划[J].计算机应用研究,2020,37(12):3650 3655.(HanJinliang,RenHaijing,WuSongwei,etal.RobotpathplanningbasedonsoftACalgorithmformultilayerattentionmechanisms[J].ApplicationResearchofComputers,2020,37(12):3650 3655.)
[3]DuanJinjun,GanYahui,ChenMing,etal.Adaptivevariableimpe dancecontrolfordynamiccontactforcetrackinginuncertainenviron ment[J].RoboticsandAutonomousSystems,2018,102:54 65.[4]CaoHongli,ChenXiao’an,HeYe,etal.Dynamicadaptivehybridim pedancecontrolfordynamiccontactforcetra
ckinginuncertainenvi ronments[EB/OL].(2019 06).http://doi.org/10.1109/ACCESS.2019.2924696.
[5]WopereisHW,HoekstraJJ,PostTH,etal.Applicationofsubstantialandsustainedforcetoverticalsurfacesusingaquadrotor[C]//ProcofIEEEInternationalConferenceonRoboticsandAutomation.2017:2704 2709.
[6]GribovskayaE,KheddarA,BillardA.Motionlearningandadaptiveimpedanceforrobotcontrolduringphysicalinteractionwithhumans[C]//ProcofIEEEInternationalConferenceonRobotics&Automa tion.Piscataway,NJ:IEEEPress,2011:4326 4332.
[7]Abu DakkaFJ,LeonelR,CaldwellDG.Force basedvariableimpe dancelearningforroboticmanipulat
ion[J].RoboticsandAutono mousSystems,2018,109:156 167.
[8]刘岩.基于腕力传感器机械臂柔顺开门作业研究[D].哈尔滨:哈尔滨理工大学,2017.(LiuYan.Researchonwristforce/torquesensorresearchonwristforce/torquesensor[D].Harbin:HarbinUni versityofScienceandTechnology,2017.)
[9]WangZheng,LiuXiaoping,LiuKefu,etal.Backstepping basedLya punovfunctionconstructionusingapproximatedynamicprogrammingandsumofsquaretechniques[J].IEEETransonCybernetics,2016,47(10):3393 3403.
[10]WangHao,WangZhifeng,LiuYanjun,etal.Fuzzytrackingadaptivecontrolofdiscrete timeswitchednonlinearsystems[J].FuzzySetsandSystems,2017,316:35 48.
[11]GaspersB,WelleJ,SchulzD.Openingdoorswithamobilemanipula torwithoutforce torquefeedback[C]//ProcofIEEEInternationalSymposiumonSafety,Security,andRescueRobotics.2013:1 6.[12]NemecB,ZlajpahL,UdeA.Dooropeningbyjoiningreinforcementlearningandintelligentcontrol[C]//Procofthe18thInternationalConferenceonAdvancedRobotics.2017.
[13]YahyaA,LiA,KalakrishnanM,etal.Collectiverobotreinforcementlearningwithdistributedasynchronousguidedpolicysearch[C]//ProcofIEEE/RSJInternationalConferenceonIntelligentRobots&Systems.2017.
[14]PerrusquíaA,YuWen,SoriaA.Position/forcecontrolofrobotmani pulatorsusingreinforcementlearning[J].IndustrialRobot,2019,46(2):267 280.
[15]郭宪,方勇纯.深入浅出强化学习:原理入门[M].北京:电子工业出版社,2018.(GuoXian,FangYongchun.Reinforcementlearninginasimpleway:introductiontoprinciples[M].Beijing:PublishingHouseofElectronicsIndustry,2018.)
[16]DuanYan,ChenXi,HouthooftR,etal.Benchmarkingdeepreinforce mentlearningforcontinuouscontrol[C]//ProcofInternationalCon ferenceonMachineLearning.2016.
[17]LillicrapTP,HuntJJ,PritzelA,etal.Continuouscontrolwithdeepreinforcementlearning[EB/OL].(2019 07 05).https://arxiv.org/abs/1509.02971.
[18]AndrychowiczM,DenilM,GomezS,etal.Learningtolearnbygradi entdescentbygradientdescent[C
]//AdvancesinNeuralInformationProcessingSystems.2016:3981 3989.
[19]YovchevK,DelchevK,KrastevE.Constrainedoutputiterativelearningcontrol[J].ArchivesofControlSciences,2020,30(1):157 176.
(上接第1803页)
[19]施俊屹,查富生,孙立宁,等.移动机器人视觉惯性SLAM研究进展[J].机器人,2020,42(6):734 748.(ShiJunyi,ZhaFusheng,SunLining,etal.Surveyofvisual inertialSLAMformobilerobots[J].Robot,2020,42(6):734 748.)
[20]TriggsB,McLauchlanPF,HartleyRI,etal.Bundleadjustment:amodernsynthesis[C]//ProcofInternationalWorkshoponVisionAl gorithms:TheoryandPractice.Berlin:Springer Verlag,1999:298 372.[21]徐晓苏,代维,杨博,等.室内环境下基于图优化的视觉惯性SLAM方法[J].中
国惯性技术学报,2017,25(3):313 319.(XuXiaosu,DaiWei,YangBo,etal.Visual aidinertialSLAMmethodbasedongraphoptimizationinindoor[J].JournalofChineseIner tialTechnology,2017,25(3):313 319.)
[22]ForsterC,CarloneL,DellaertF,etal.On manifoldpreintegrationforreal timevisual inertialodometry[J].IEEETransonRobotics,2017,33(1):1 21.
[23]DubbelmanG,BrowningB.COP SLAM:closed formonlinepose
chainoptimizationforvisualSLAM[J].IEEETransonRobotics,2015,31(5):1194 1213.
[24]Galvez LpezD,TardosJD.Bagsofbinarywordsforfastplacerecog nitioninimagesequences[J].IEEETransonRobotics,2012,28(5):1188 1197.
[25]ClausenJ.Branchandboundalgorithms:principlesandexamples[J].Computer,1999,22(5):658 663.
[26]RehderJ,NikolicJ,SchneiderT,etal.Extendingkalibr:calibratingtheextrinsicsofmultipleIMUsandofindividualaxes[C]//ProcofIEEEInternationalConferenceonRobotics&Automation.Pisca taway,NJ:IEEEPress,2016:4304 4311.
[27]张国强,韩军,陈方杰,等.一种在激光雷达无回波区域的地图构建算法[J].计算机应用研究,2019,36(12):3874 3877.(ZhangGuoqiang,HanJun,ChenFangjie,etal.Map buildingalgorithmfornon echoregionofLiDAR[J].ApplicationResearchofCompu ters,2019,36(12):3874 3877.)
·
8
0
8
1
·计算机应用研究 第38卷