无人自主系统及智能决策专栏

复杂环境下仿蛇机器人的路径规划策略

李伟庆,王永娟,高云龙

(南京理工大学 机械工程学院, 南京 210094)

摘要:为完成多障碍物复杂环境中的侦察任务,改善仿蛇机器人的路径搜索能力和提升自主决策能力,本文中提出了一种基于先验知识推理库强化学习的路径规划控制策略。首先,建立仿蛇机器人的运动模型和交互环境模型;其次,通过建立模糊逻辑先验知识推理库(FLIS)与Soft Actor-Critic(SAC)动作网络组成的动作分层选择模型,将输出动作空间进行离散化的方法来调整运动控制精度,提供奖惩机制指导机器人与环境模型进行交互,实现机器人运动自主决策的持续生成过程。仿真结果表明:在多障碍物环境中所提出的改进算法得到的运动控制策略收敛速度和鲁棒性明显提升,降低了训练探索次数,提高了机器人对复杂环境的适应性;试验验证了训练所生成的策略模型在真实环境中的可行性。

关键词:仿蛇机器人;强化学习;先验知识;路径规划;自主避障

0 引言

仿蛇机器人的仿生结构与高冗余度使其具备多样运动形式、地面强适应能力等诸多优势,在灾后救援、军事侦察等领域具有广泛的应用前景。这些优势使得机器人在完成任务时,保证不损坏自身和周围环境[1]。由于机械结构的限制,大量冗余自由度使得机器人在最优路径规划和运动控制方面变得复杂[2]。针对上述问题,国内外众多学者对实现自主避障和最优路径规划与控制展开研究。

仿蛇机器人控制问题以传统控制为基础展开研究[3],王轸等[4]提出一种背线模态法和RRT的控制算法生成绕过障碍的轨迹,解决了蛇形机械臂的避障轨迹规划问题。Kenglung Hsu[5]结合RRT算法引入局部搜索算法提出了双向快速扩展随机树算法,提高了搜索路径平滑度。Takuro Takana-shi等[6]设计了一种非轮式蛇形机器人,通过障碍物辅助运动改变与障碍物接触部位的形状,使得机器人可以向前或横向直线运动完成避障任务。Lixing Liu等[7]提出一种云台补偿方法和曲线补偿路径跟踪控制器,消除了路径偏差和实现避开障碍物。传统的控制方法对机器人的建模有比较高的依赖性,使得运动状态和机器人参数仍处于定性分析阶段,造成机器人在面对复杂环境时存在快速响应能力和鲁棒性不足的问题。

随着人工智能的兴起与发展,将智能算法与机器人技术相结合[8],进而解决复杂控制的问题。Yuanyuan Jia等[9]基于统一的贝叶斯框架,集成一个教练模块来训练仿蛇机器人智能体,有效节省了收敛时间。Semab Neimat Khan等[10]提出一种基于双深度Q学习的技术来学习从随机起点到目标点的最佳策略。方勇纯[11]、Qi Yongqiang等[12]采用一种数值迭代方法的路径积分强化学习算法,获取机器人规避障碍到达目标点的运动参数。Bing[13-14]、Zheng C[15]使用强化学习算法来完成目标跟踪任务,使用滑动步态进行平坦地面运动控制和液体中运动控制来改善蛇形机器人运动中的能量消耗问题。Xianlin Liu[16]、郝崇清[17]提出一种改进的深度确定性策略梯度算法,使用LSTM机制方法减少无用特征的影响,减少蛇形机器人的路径规划时间和碰撞次数。结合智能算法可以有效处理解决在单一简单的环境的控制问题,但碰到复杂障碍物环境中,训练收敛速度慢和控制鲁棒性低对控制造成一定难度。

为解决仿蛇机器人在复杂多障碍物环境的自主避障和路径规划问题,本文中提出一种基于FLIS(先验知识推理库)的SAC强化学习算法FLISAC,实现对机器人的控制。为提高与环境交互数据的质量,使得策略网络的性能得到提升,利用机器人与环境的状态空间建立的知识库组成分层动作选择策略得到优势样本数据;并设计合适的奖励函数,提高自主避障和完成路径规划的成功率,提升机器人的鲁棒性。

1 仿蛇机器人建模

对仿蛇机器人来说,要实现对其准确的控制,就要针对机器人的结构建立合理的运动学和动力学模型[18]。因此,在三维空间内建立的机器人运动模型,通过改变控制函数的参数来决定关节绕旋转轴的角度。

1.1 仿蛇机器人运动学模型

仿蛇机器人模型为7个关节,6个互相平行且沿各自Zi轴旋转的关节,如图1所示。其中O-XYZ为世界坐标系,G为目标物,B为障碍物,全部关节围绕自身Zi轴及旋转,并依赖相邻连杆角度θi的差值造成的摆动进行前进运动,连杆角度差称为关节角φi,即:

φi=θi-θi+1

(1)

式(1)中: φi为第i关节的角度; θi为第i连杆的角度。

图 1 仿蛇机器人运动学模型

Fig.1 Kinematic model of snake robot

基于运动学的形态学理论建立了运动学步态控制器[19],关节角度φi可表示为

φi=Aisin(ωit+(i-1)βi)+γi

(2)

式(2)中: φi取值范围为[-π/2,π/2];Ai为第i关节的最大转动角度;ωi为第i关节转角变化频率; βi为第i关节的运动方式控制相位角,可以决定机器人的运动姿态; γi为关节角偏移量。

1.2 仿蛇机器人仿真环境建模

头部关节作为环境数据采集中心,配有3个激光测距传感器和IMU,用来保存采集机器人模型与环境交互的状态信息,其中激光测距传感器互为夹角45°,各传感器的位置关系如图2所示,端部圆点为激光传感器。为了简化仿蛇机器人模型结构,采用从动轮的辅助结构来模拟生物蛇的皮肤与地面的摩擦异性[20],来提高机器人运动中的鲁棒性。

图2 头部关节侧视图和俯视图

Fig.2 Side view and top view of the head joint

根据样机与地面摩擦试验和多次仿真,采用Mujoco物理模拟引擎[21]搭建虚拟环境,依据关节之间的运动模态来设计机器人的各项参数,包括质量、惯性张量以及从动轮与地面合适的各项摩擦系数,并对模型施加标准重力系数[22]。在环境中任意放置多个大小不一的障碍物用来模拟复杂环境,在任意位置设置目标航点。如图3所示,左上角为目标,右下角为某一时刻运动状态。随着仿蛇机器人周围环境的改变,控制机器人步态方程控制器(式(2))的控制参数来改变关节角φi,且每个关节工作范围在[-π/2,π/2]。

图3 Mujoco仿真环境示意图

Fig.3 Schematic diagram of Mujoco simulation environment

2 基于先验知识库的FLISAC算法

本文中将仿蛇机器人自主避障决策和目标追踪任务转化为强化学习中的动作自主决策过程,不断与环境交互探索,传统的强化学习算法存在没有必要的探索范围的步数浪费,且容易陷入局部最优状态。本文中基于SAC设计了一种先验知识推理库的强化学习算法(FLISAC),增加记忆池中优势经验占比,从而修正劣质经验带来的训练误差,使得改进算法有较强的鲁棒性和探索能力。

2.1 SAC算法

SAC算法与传统的智能体奖励最大化目标的算法不同,该算法的目标函数在传统的算法基础上添加了一个状态为st时策略π的动作熵值项,可以使得获得长期的智能体奖励(reward)最大化和策略下的动作熵值(entropy)最大[23]。避免了重复选择同一个动作陷入次优,这样做使得算法具有更强的探索能力、鲁棒性更强。最大化熵值算法框架的目标函数为

(3)

式(3)中:α为温度系数,确定了动作熵项对于奖励的相对重要性,系数越大,控制策略越随机,且选择温度系数为自动调整让模型稳定训练;ρπ为策略πstat的分布;R(st,at)为该状态下采取动作的奖励;H(π(·|st))为状态是st时控制策略π的动作熵值:H(π(·|st))=[-logπ(·|st)]。

最大熵强化学习算法采用一种软更新策略进行迭代。对于策略π来说,策略评估阶段可以用基于熵值改进的贝尔曼算子来计算,迭代求得Q函数:

(4)

式(4)中,st+1从经验回放池D获得,软状态价值函数定义为

(5)

另外,在策略更新阶段,通常使用Kullback-Leibler散度将更新的最优策略映射到策略空间∏上,利用参数化的高斯分布,选择相对于Q函数较好的action值:

(6)

式(6)中,Zπ=∑exp(Q(st,at))为分配函数;DKL为策略散度空间。

SAC算法包含策略网络πφ(st,at),软状态价值网络Vψ(st)和目标状态价值网络以及2个软Q网络Qθ12(st,at),它们分别由参数化。该算法交替更新优化价值网络Qθ(st,at)和策略网络πφ(st,at),其中策略网络πφ(st,at)输出满足高斯正态分布的均值和标准差。

采用双Qθ=1,2(stat)的形式取两者最小值,并通过最小化贝尔曼残差对Q函数来逼近更新:

(7)

通过最小化策略函数与最优函数之间的KL散度来求得策略网络的损失函数,即:

(8)

2.2 避碰行为先验知识库分析

在传统SAC算法中,训练前期的高探索性容易造成样本数据的质量不佳,同时训练动作过度离散化,导致仿真控制器的输出存在持续波动,训练不稳定。

本文中将激光测距传感器与周围环境的测量值D、头部与目标的相对夹角θ这2个因素作为状态输入变量,建立基于Fuzzy_Logic推理器的先验知识推理库,寻找适合该状态下的步态控制函数偏角γ。模糊推理过程采用自然语言,将状态输入变量模糊化及隶属度模糊化[24]得到Fuzzy_Logic知识库推理系统(FLIS)的流程如图4所示。

图4 Fuzzy_Logic知识库推理框架

Fig.4 Knowledge base reasoning framework of Fuzzy_Logic

通过状态输入变量推理出合适的步态控制函数的偏角,将3个方向的测距传感器{Left、Front、Right}的测量值分为低维度2个模糊集{Near、Far},根据控制经验值将距离范围划分为{10~100 cm}。头部与目标的相对方向角分割成5个模糊集{LB、LS、Z、RS、RB}为{负大、负小、零度、正小、正大},根据控制经验值将偏角角度范围划分为{-180°~180°}。为避免动作搜索空间过大,对控制器的输出动作进行离散化,偏角参数γ分割成5个模糊集{LH、LL、Z、RL、RH}为{左大、左小、无偏、右小、右大},根据控制经验值将偏角角度范围划分为{-35°~35°}。

为了增加机器人对周围环境的感知能力,将传感器测量值分成7种组合,即3个方向的距离之间的相互关系。因此设计模糊规则如表1所示,共有40种规则,将距离范围定义为在Near距离处L/F/R方向的组合,L/F/R表示左侧、前和右侧。

表1 模糊逻辑规则

Table 1 Fuzzy logic rule table

距离范围相对夹角/(°)LBLSZRSRBNearLRHRHRLRLRHFLHLLRLRLRHRLHLLLLLHLHL/FRHRHRLRLRLL/RZZZZZF/RLLLLLLLHLHL/F/RZZZZZFarZeroLHLLZRLRH

在本控制器中,模糊逻辑知识库的推理采用Mamdani型推理算法,将模糊隶属度采用加权平均法的反模糊化方法推理出动作偏角。

基于激光测距传感器的测量值和相对角度,对状态输入量进行处理得到距离和角度的模糊隶属度,并对输出动作处理得到动作的模糊隶属度,获得的模糊隶属度如图5所示。

图5 Fuzzy_Logic模糊隶属度函数示意图

Fig.5 Fuzzy membership function of Fuzzy_Logic

2.3 知识库引导控制策略算法设计

根据上节设计的先验知识库FLIS推理模型,由模糊逻辑方法的输入状态St={st1,st2,…}和规则系统得到表示该规则下每个动作af_i对于当前状态st的适应程度的隶属度μ(af_i|st)。将获得的所有的动作隶属度值进行归一化处理,得到在状态st下选择af_i的概率,可表示为

(9)

为了降低先验知识库带来的人为因素和满足训练初期的优质样本数据,要逐渐增加策略网络训练的影响因子,降低先验知识模型的影响因子。在计算软状态价值函数时,要考虑策略网络πentropy的熵值和模糊策略πfuzzy的熵值。训练智能体迭代更新,在更新状态价值阶段,要不断降低πfuzzy带来的影响,提高πentropy的熵值,即:

式(10)中,mn分别为在t=[0,tlim]范围内策略的熵值系数和模糊逻辑的熵值系数,且满足如下关系,定义策略熵值系数m下限为0.2,模糊逻辑系数n的上限为0.8。

(11)

改进后最大化熵值算法框架的目标函数为

(12)

(13)

其中, F(πfuzzy(af_i|st))表示状态st基于模糊逻辑推理的af_i的熵值;温度参数α决定了熵值的大小,m+n=1保证算法达到最优期望,最终得到最优的损失函数。

本文中FLISAC算法在训练开始阶段初始化Actor网络、Critic网络和Target-Critic网络的参数,同时设定选择用于先验知识推理系统(FLIS)概率为80%和策略网络高斯动作分布概率为20%。利用Actor网络和FLIS推理模型基于当前状态选择动作a,以引导智能体的探索;执行选取的动作a将观测到的奖励和下一状态存储到经验池;从经验池中采样一批样本,计算Target-Critic网络的Q值,并计算Critic网络的损失函数;通过梯度下降法更新Critic网络参数,并利用软更新策略更新Target-Critic网络的参数;利用FLIS推理模和策略网络计算状态价值函数,由此计算Actor网络的策略损失来更新Actor网络参数;梯度法更新网络参数,调整选择概率,以平衡探索和执行(图6)。

图6 FLISAC算法网络流程

Fig.6 FLISAC algorithm network flow

3 模型状态动作空间与奖励设计

3.1 状态空间与动作空间设计

状态空间是仿蛇机器人对环境的反馈,是选择动作空间的依据。面对复杂的环境,FLISAC算法的每个训练周期要完成状态空间数据的更新,状态空间的数据量不宜过多。考虑算法计算复杂度,如表2所示,设计状态空间为S={头部位置、激光传感器测量值、姿态、方向}。

表2 仿真环境下的观测空间

Table 2 Observation space in simulation environment

维度观测空间参数描述0~1头部在绝对笛卡尔坐标系中的X和Y坐标[Xhead,Yhead]2~4头部在三维空间中的姿态[roll,pitch,yaw]5~73个激光测距传感器测量的距离[distleft,distfront,distright]8~13关节1到关节6的相对角度[J1~J6]14头部到目标的相对角度[anglerelative]

根据仿蛇机器人的步态控制方程,运动空间参数包括幅值A、频率ω、相位差β和偏角γ。传统的机器人运动采用离散动作来完成前进和转弯,为了跟踪轨迹平滑以及训练过程中动作参数变化过渡平缓,将动作空间定义为连续值。根据仿蛇机器人的结构特性以及步态方程参数化分析[18],关节角的上下限由幅值A来决定,设置幅值的取值A=(-5π/12,5π/12)rad;频率的改变影响关节转角速度,过大会致使机器人移动过快造成高能耗,频率过低导致移动速度过慢,设置频率的取值ω=(-5π/12,5π/12)rad;相邻关节的相位差可设置为β=(0,π)rad;偏转角决定着转弯半径,并结合机器人的结构尺寸设置γ=(-35°,35°)。

3.2 奖励函数设计

在训练的过程中,一个良好的奖励函数可以使得机器人在尽可能少的训练步数和迭代次数内达到目标,有效地提升训练效率。FLISAC算法以世界坐标系为基准,旨在使蛇形机器人能够自主避障和追踪目标,最终实现最优路径控制策略。这不仅要考虑障碍物和目标对机器人的离散引导作用,还要考虑机器人在该姿态下的连续运动带来的变化。因此,将奖励设计分成连续奖励和离散奖励,提供更加丰富的反馈信息,进而解决稀疏奖励带来训练不稳定和收敛问题。

1) 连续奖励设计。在环境训练中,目标对机器人头部的引导作用,促使智能体不断修正头部的朝向,如图7所示。当与目标的偏角超过阈值,奖励设计为负值,获得目标偏向角奖励;在阈值范围内奖励设计为正值,并且目标偏向角的奖励限制在[-1,1]范围内,即:

(14)

图7 某一时刻仿蛇机器人环境示意图

Fig.7 A sketch of the environment of a snake-like robot

式(14)中:α为偏向角奖励因子;θ1θ2分别为目标在头部的惯性坐标系中障碍物与X轴的夹角和头部在其惯性坐标系的朝向角,且定义θ=θ1-θ2

为保证在训练中可以保持该时刻下优势姿态,需要引入速度奖励来选择参数组合。速度奖励分成前向速度奖励和后向惩罚,即:

(15)

式(15)中: β为速度奖励因子;定义dist=distafter-distbefore,且distbeforedistafter分别为前一时刻蛇头位置与目标的距离和此时刻蛇头位置与目标的距离。

而障碍物起到引导作用,可以让仿蛇机器人避免发生碰撞。当发生碰撞事件时,产生负奖励。根据碰撞持续产生奖励,让机器人可以不断调整动作,其中distsensor为3个激光传感器测量的距离,i={left,front,right}满足任一条件,即:

(16)

2) 离散奖励设计。当仿蛇机器人的头部位置到达目标,产生一次立即奖励回馈500,训练Done转成True,并完成此次训练;其余状态不产生任何奖励,即:

(17)

因此,为了提高路径决策的准确性和效率,最终奖励函数设计如下:

reward=rew_angle+rew_velocity+rew_sensor+rew_arrive

(18)

4 仿真与试验

本文中提出的改进算法基于Ubuntu20.04,Pytorch训练框架,训练在英伟达GeForce RTX 2080GPU上完成。仿蛇机器人的驱动力由FLISAC算法得到的动作输出获得,当智能体触发失败阈值,则整个训练环境复位后重新学习,直到稳定达到目标点。利用Mujoco仿真平台评估先验知识库的环境适应能力,验证仿蛇机器人在多障碍物的复杂环境中FLISAC算法的可行性,进行改进SAC和SAC算法的奖励和训练步数对比试验。

强化学习不同于一般的监督学习任务,仿蛇机器人需要足够多的步数来探索环境并学习有效的策略,也要确保在合理的迭代次数内完成训练。本文为了进一步比较SAC算法与FLISAC算法,基于训练经验值[13-17]与对SAC算法的优化[25-26],通过对2种算法多次初步训练设计FLISAC算法的模型超参数,如表3所示。

表3 模型超参数设计

Table 3 Model hyperparameter design

超参数数值描述epoch100迭代数step_epoch4000单次迭代步数actor_lr0.001动作学习率critic_lr0.001评价学习率gamma0.99折扣因子tau0.005软更新-熵alpha0.2温度参数alpha_lr0.0001温度自适应率buffer_size1e6记忆池数量

4.1 仿真实验分析

在复杂障碍物环境中,对有FL和无FL的算法分别进行仿真,来测试机器人智能体的适应能力。在Mujoco虚拟引擎环境中,将智能体仿真1 000步,得到头部关节转角变化,如图8所示。在150步和650步,FL先验知识库的机器人会针对周围环境做出相应转角动作,且得到转角变化有更少的尖角,鲁棒性更强。表明面对复杂的环境,建立具有先验知识库推理器的算法更有能力适应复杂环境。

图8 有无FL算法的头部关节转角变化

Fig.8 Head joint angle change with or without FL algorithm

为解决稀疏奖励带来的问题,在仿蛇机器人智能体在复杂环境中的探索中,将奖励细分成连续奖励和离散奖励的策略尤为重要,该策略能够更灵活地引导强化学习算法学习复杂的任务。现将稀疏奖励下的SAC算法(S_SAC)和SAC算法进行仿真对比,如图9所示。

图9 S-SAC与SAC训练仿真对比图

Fig.9 Comparison chart of S-SAC and SAC training

从稀疏奖励的SAC(S_SAC)和SAC算法的奖励和训练步数的仿真结果可得到,由于S_SAC算法中缺少了朝向角的连续奖励,最终的奖励值稳定在450~500,在迭代次数23×104处开始逐渐收敛;而具有来连续和离散的SAC算法在迭代次数17×104处逐渐收敛。从图9(b)中明显得出S_SAC算法训练的稳定性很差,奖励虽逐渐稳定收敛,但训练步数相对于SAC算法震荡明显,学习效果不佳。这表明本文设计的连续和离散的奖励函数可以加速训练学习收敛以及提供更稳定的训练。

SAC算法训练中会出现陷入死区从而造成训练时间过长和训练奖励达不到收敛状态。设置最终完成训练目标整体呈现高正向奖励,未完成任务或者陷入死区呈现低正向奖励或者负向奖励。如图10所示,横坐标为迭代总数Epoch,纵坐标为奖励Reward。图10中初始数据25×104~35×104(代表原始数据)迭代总数在区间可以看到奖励发生频繁波动,为使奖励曲线更加简洁,将奖励曲线进行Smoothing处理。

图10 SAC和FLISAC算法训练奖励

Fig.10 SAC and FLISAC algorithm training rewards

在复杂多目标环境下,SAC和FLISAC算法的平均奖励分别在17×104和5×104从负值提升,最终趋向于稳定收敛。由于SAC算法前期积累的有利经验不足,使得训练前期奖励曲线出现多次起伏,而FLISAC算法中的FL先验知识库弥补了劣质数据这一缺点,并结合上一节设计的奖励函数使得模型实现高效完成自主避障任务,最终将训练奖励稳定在1 550~1 700,如图10所示。FLISAC相对于SAC算法,在复杂多障碍物环境中表现出更高的学习效率和适应能力。它能够快速借鉴先前的经验并迅速适应新的环境,收敛速度提高了70.59%。

仿真结果表明:在复杂多障碍物环境中,改进SAC算法可以在每次迭代中以更少的训练步数完成任务。如图11所示,横坐标为迭代数Epoch,纵坐标为环境训练步数Length。SAC算法在训练16.8×104之后训练趋于稳定,在1 600~1 700 次内完成自主避障和路径控制策略,FLISAC算法在训练5.4×104之后训练趋于稳定,在1 450~1 550次内完成路径规划和该环境下控制策略。这表明FLISAC算法在复杂多障碍物环境中相较于SAC算法表现出更优的训练速度和稳定性,训练鲁棒性提升了9.1%。

图11 SAC和FLAC算法训练搜索步数

Fig.11 Training search steps for SAC and FLAC algorithms

仿真后,在仿蛇机器人环境中进行100次测试。从图12可以得出FLISAC算法每轮训练长度波动幅度很小,SAC算法和FLISAC算法的标准差值分别为558.04和49.11,再次表明改进算法的稳定性更好。

图12 SAC和FLISAC算法100次测试步数

Fig.12 100 test steps of SAC and FLISAC algorithm

将FLISAC算法得到的仿真训练结果进行验证测试,完成一轮训练并采集到从开始到训练完成的测试示意图,仿蛇机器人在仿真环境中以蜿蜒姿态前进,改进算法可以更好的完成避障任务,使规划的路线更加圆滑,让机器人运动更加平稳。如图13所示,由三维空间图转换到二维空间界面,左下角和右上角圆框分别代表起始点和目标点,矩形框为障碍物。

图13 测试模型的路径曲线

Fig.13 Path curve of the test model

4.2 试验分析

为验证本文中提出的改进算法所训练的策略在实物平台的可行性,提取策略网络在复杂环境下的避障和路径规划策略,并在样机上进行试验。如图14所示,机器人的路径规划试验平台有仿蛇机器人、测距传感器、IMU传感器、障碍物与目标点。上位机与机器人控制器采用IP协议进行通信,机器人控制器对舵机进行控制并反馈计算当前状态信息,完成自主避障和路径规划任务,系统样机实物如图14所示。

图14 仿蛇机器人实物

Fig.14 A physical image of a snake robot

如图15所示,该路径规划结果可实现简单的复杂环境下的避障和控制。初始时刻仿蛇机器人位于原点,样机保持直线状态,运动过程中不断采集仿蛇机器人的头部位置、IMU数据、与障碍物的距离发送到上位机,并引导向目标点靠近和远离障碍物。

图15 多障碍仿蛇机器人原理样机试验

Fig.15 Prototype test of multi-obstacle snake robot principle

由样机试验过程可以看出,基于先验知识库推理机制的强化学习的模型的避障有更高的效率;当仿蛇机器人靠近障碍物时,相比传统控制策略,该控制策略下机器人样机的自主避障能力得到了提升。

5 结论

本文中提出了一种基于模糊逻辑推理知识库(FLIS)和SAC算法的仿蛇机器人路径规划策略算法FLISAC,实现自主避障和路径规划。通过仿真和试验结果验证了本算法:

1) 设计了基于机器人与环境的状态空间建立的模糊逻辑知识库,与Actor网络组成动作分层选择结构策略,使得在不同阶段能够更加灵活地利用先验知识和学到的经验去训练,提高了与环境交互数据的质量,提升了优势经验的采样概率。

2) 考虑机器人的任务和所处复杂的交互环境,设计了状态空间、动作空间以及奖惩函数,提高了智能体的训练效率。

3) 改进FLISAC算法相较于SAC算法,在训练过程中收敛速度提高了70.59%,稳定性提升了9.1%,使其能够在复杂环境中取得更好的表现,有效减少了不稳定性带来的影响。本文中提出的改进算法使仿蛇机器人可以有效地自主避障,提高了对复杂环境的自主决策能力和机器人的鲁棒性。

参考文献:

[1] SEEJA G,AROCKIA S A D,BERLIN HENCY V,et al.A survey on snake robot locomotion[J].IEEE Access,2022(10):112100-112116.

[2] LIU J,TONG Y,LIU J.Review of snake robots in constrained environments[J].Robotics and Autonomous Systems,2021,141:103785.

[3] YANG X,ZHENG L,LU D,et al.The snake-inspired robots:a review[J].Assembly Automation,2022,42(4):567-583.

[4] 王轸,常健,李斌,等.基于脊线模态法和RRT算法的蛇形机械臂避障控制研究[J].高技术通讯,2020,30(12):1274-1283.WANG Zhen,CHANG Jian,LI Bin,et al.Research on obstacle avoidance control of snake manipulator based on ridge mode method and rrt algorithm[J].High-tech Communication,2020,30(12):1274-1283.

[5] HSU K.Obstacle avoidance path scheme of snake robot based on bidirectional fast expanding random tree algorithm[J].Journal of King Saud University-Science,2022,34(4):101975.

[6] TAKANASHI T,NAKAJIMA M,TAKEEMORI T,et al.Obstacle-aided locomotion of a snake robot using piecewise Helixes[J].IEEE Robotics and Automation Letters,2022,7(4):10542-10549.

[7] LIU L,XI W,GUO X,et al.Vision-based path following of snake-like robots[C]//.2021 IEEE International Conference on Robotics and Automation (ICRA),2021:3084-3090.

[8] 刘乃军,鲁涛,蔡莹皓,等.机器操作技能学习方法综述[J].自动化学报,2019,4 5(3):458-470.LIU Naijun,LU Tao,CAI Yinghao,et al.An overview of learning methods for machine operation skills[J].Acta Automatica Sinica,201 9,45(3):458-470.

[9] JIA Y,MA S.A coach-based bayesian reinforcement learning method for snake robot control[J].IEEE Robotics and Automation Letters,2021,6(2):2319-2326.

[10] NEIMAT KHAN S,Mahmood T,IZZAT ULLAH S,et al.Motion planning for a snake robot using double deep q-learning[C]//2021 International Conference on Artificial Intelligence (ICAI),2021:264-270.

[11] 方勇纯,朱威,郭宪.基于路径积分强化学习方法的蛇形机器人目标导向运动[J].模式识别与人工智能,2019,32(1):1-9.FANG Yongchun,ZHU Wei,GUO Xian.Goal-directed motion of snake robot based on path integral reinforcement learning[J].Pattern Recognition and Artificial Intelligence,2019,32 (1):1-9.

[12] QI Y Q,YANG H L RONG D,et al.Path-integral-based reinforcement learning algorithm for goal-directed locomotion of snake-shaped robot[J].Discrete Dynamics in Nature and Society,2021,20(21):1-12.

[13] BING Z,LEMKE C,CHENG L,et al.Energy-efficient and damage-recovery slithering gait design for a snake-like robot based on reinforcement learning and inverse reinforcement learning[J].Neural Networks,2020,129(7):323-333.

[14] BING Z,LEMKE C,MORIN F O,et al.Perception-action coupling target tracking control for a snake robot via reinforcement learning[J].Frontiers in Neurorobotics,2020,14(79):591128.

[15] ZHENG C,LI G,HAYASHIBE M.Joint elasticity produces energy efficiency in underwater locomotion[J].Front Robot AI,2022(9):957931.

[16] LIU X L,WANG J,SUN Y.Snake robot motion planning based on improved depth deterministic policy gradient[C]//Springer Nature Singapore,2022:151-162.

[17] 郝崇清,任博恒,赵庆鹏,等.基于改进的DDPG算法的蛇形机器人路径规划方法[J].河北科技大学学报,2023,44(2):165-176.HAO Chongqing,REN Boheng,ZHAO Qingpeng,et al.Path planning method of snake robot based on improved ddpg algorithm[J].Journal of Hebei University of Science and Technology,2023,44(2):165-176.

[18] 张东.复杂环境下仿蛇机器人三维运动建模与优化控制[D].北京:北京化工大学,2020.ZHANG Dong.Three-dimensional motion modeling and optimal control of snake robot in complex environment[D].Beijing:Beijing University of Chemical Technology,2020.

[19] 王生栋.蛇形机器人结构设计与运动控制研究[D].黑龙江:哈尔滨工业大学,2016.WANG Shengdong.Structure design and motion control research of snake-like robots[D].Heilongjiang:Harbin Institute of Technology,2016.

[20] 刘旭鹏,郜志英,臧勇,等.蛇形机器人蜿蜒运动的摩擦机理及推进条件[J].机械工程学报,2021,57(21):189-201.LIU Xupeng,GAO Zhiying,ZANG Yong,et al.Friction mechanism and propulsion conditions of snaking robot[J].Chinese Journal of Mechanical Engineering,2021,57(21):189-201.

[21] TODOROV E,EREZ T,TASSA Y.MuJoCo:A physics engine for model-based control[C]//2012 IEEE/RSJ International Conference on Intelligent Robots and Systems,2012:5026-5033.

[22] 张军豪,陈英龙,杨双喜,等.蛇形机器人:仿生机理、结构驱动和建模控制[J].机械工程学报,2022,58(7):75-92.ZHANG Junhao,CHEN Yinglong,YANG Shuangxi,et al.Snake robot:Biomimetic mechanism,structural drive and modeling control[J].Chinese Journal of Mechanical Engineering,2022,58(7):75-92.

[23] WONG C C,CHIEN S Y,FENG H M,et al.Motion planning for dual-arm robot based on soft actor-critic[J].IEEE Access,2021(9):26871-26885.

[24] ABDELWAHAB M,PARQUE V,ABOUELSOUD A A,et al.Navigation of omni-directional mobile robot in unstructured environments using fuzzy logic control[C]//2021 IEEE/SICE International Symposium on System Integration (SII).2021:684-689.

[25] SHAHID A A,PIGA D,BRAGHIN F,et al.Continuous control actions learning and adaptation for robotic manipulation through reinforcement learning[J].Autonomous Robots.2022,46(3):483-498.

[26] HAN M,ZHANG L,WANG J,et al,Actor-critic reinforcement learning for control with stability guarantee[J].IEEE Robotics and Automation Letters,2020(5):6217-6224.

Path planning strategy of snake-like robot in complex environment

LI Weiqing, WANG Yongjuan, GAO Yunlong

(School of Mechanical Engineering, Nanjing University of Science and Technology, Nanjing 210094, China)

AbstractIn order to complete the reconnaissance task in the complex environment of multiple obstacles, improve the path search ability of the snake-like robot and enhance the autonomous decision-making ability, this paper proposes a path planning control strategy based on prior knowledge inference library reinforcement learning. Firstly, the motion model and interactive environment model of snake-like robot are established. Secondly, by establishing an action hierarchical selection model composed of Fuzzy logic prior knowledge inference system (FLIS) and Soft Actor-Critic(SAC) action network, the output action space is discretized to adjust the motion control accuracy, and a reward and punishment mechanism is provided to guide the robot to interact with the environment model to realize the continuous generation process of robot motion autonomous decision-making. The simulation results show that the convergence speed and robustness of the motion control strategy obtained by the improved algorithm proposed in the multi-obstacle environment are significantly improved, the number of training explorations is reduced, and the adaptability of the robot to the complex environment is improved. The experiment verifies the feasibility of the strategy model generated by the training in the real environment.

Key wordssnake robot; reinforcement learning; prior knowledge; path planning; autonomous obstacle avoidance

doi:10.11809/bqzbgcxb2024.07.004

收稿日期:2023-10-17;修回日期:2023-12-12;录用日期:2024-02-05

作者简介:李伟庆(1997—),男,硕士研究生,E-mail:liweiqing@njust.edu.cn。

通信作者:王永娟(1972—),女,教授,博士生导师,E-mail:13951643935@139.com。

本文引用格式:李伟庆,王永娟,高云龙.复杂环境下仿蛇机器人的路径规划策略[J].兵器装备工程学报,2024,45(7):28-37.

Citation format:LI Weiqing, WANG Yongjuan, GAO Yunlong.Path planning strategy of snake-like robot in complex environment[J].Journal of Ordnance Equipment Engineering,2024,45(7):28-37.

中图分类号:TP242.6

文献标识码:A

文章编号:2096-2304(2024)07-0028-10

科学编辑 李波 博士(西北工业大学 教授)

责任编辑 唐定国