本发明涉及非电变量的控制或调节系统技术领域,尤其涉及一种多拦截飞行器协同突防博弈制导律设计方法,包括如下步骤:建立三维相对运动模型;设定存在时间使各拦截飞行器在内的一个时间点达到预设制导效果;为各拦截飞行器设定状态空间、动作空间及奖励函数;初始化状态空间、动作空间、奖励函数及网络参数;对各拦截飞行器在每一个设定的时间步内根据当前actor网络及状态选择动作,并将经验元组数据进行存储;随机抽取经验元组数据对网络进行学习,并更新网络;重复迭代直至设计的动作使各拦截飞行器达到预设制导效果。本发明提供的方法具有高度的适应性,强大的决策能力以及协同效率,方案先进且灵活有效。
1.一种多拦截飞行器协同突防博弈制导律设计方法,其特征在于:包括如下步骤:
S1:建立目标飞行器、反拦截飞行器及拦截飞行器间的三维相对运动模型,其中拦截飞行器包括一个领导拦截飞行器及多个跟随拦截飞行器;
S2:针对三维相对运动模型设定存在时间,使各拦截飞行器达到下述预设制导效果:各拦截飞行器的剩余飞行时间达到一致,各拦截飞行器的视线高低角和视线方位角在从初始状态到达这段时间内的一个时间点分别收敛到期望值,且在绕开反拦截飞行器攻击的同时,完成对目标飞行器的攻击;
S3:为各拦截飞行器分别设定状态空间;
S4:对协同制导律进行设计,为各拦截飞行器分别设定动作空间,使各拦截飞行器达到步骤S2所述的预设制导效果;
S5:为各拦截飞行器设计奖励函数,使各拦截飞行器与环境交互后的弹目距离趋近于0,视线高低角、视线方位角同时趋近于其期望值;
S6:初始化各拦截飞行器的状态空间、动作空间、奖励函数及原始actor网络参数、原始critic网络参数、目标actor网络参数、目标critic网络参数,并将根据设定状态空间设计的状态、根据动作空间设计的动作及根据奖励函数设计的奖励分别赋予相应的拦截飞行器;
S7:对各拦截飞行器在每一个设定的时间步内根据当前actor网络及状态选择动作,使各拦截飞行器达到步骤S2所述的预设制导效果,并将每一个设定的时间步内获得的经验元组数据进行存储;
S8:随机抽取多组经验元组数据对actor网络及critic网络进行学习,并更新原始actor网络参数、原始critic网络参数、目标actor网络参数、目标critic网络参数,同时对各拦截飞行器目标actor网络及目标critic网络进行软更新;
S9:重复迭代步骤S7及步骤S8,直至设计的动作使各拦截飞行器达到步骤S2所述的预设制导效果,得到能够达到预设制导效果的各拦截飞行器的动作。
2.根据权利要求1所述的一种多拦截飞行器协同突防博弈制导律设计方法,其特征在于:步骤S1中按照如下方法建立目标飞行器、反拦截飞行器及拦截飞行器间的三维相对运动模型:
S11:定义三维空间内领导拦截飞行器和目标飞行器的相对速度矢量表达式为式(1),三维空间内跟随拦截飞行器和目标飞行器的相对速度矢量表达式为式(2),三维空间内领导拦截飞行器和反拦截飞行器的相对速度矢量表达式为式(3):
(1);
(2);
(3);
其中:表示领导拦截飞行器与目标飞行器的弹目相对距离,表示领导拦截飞行器与目标飞行器间的视线高低角,表示第个跟随拦截飞行器与目标飞行器的弹目相对距离,表示第个跟随拦截飞行器与目标飞行器间的视线高低角,表示领导拦截飞行器与反拦截飞行器的弹目相对距离,表示领导拦截飞行器与反拦截飞行器间的视线高低角,表示领导飞行器与目标飞行器间的视线方位角,表示第个跟随飞行器与目标飞行器间的视线方位角,表示领导拦截飞行器与反拦截飞行器间的视线方位角,表示三维空间内领导拦截飞行器和目标飞行器的相对速度矢量,表示三维空间内第个跟随拦截飞行器和目标飞行器的相对速度矢量,表示三维空间内领导拦截飞行器和反拦截飞行器的相对速度矢量;
S12:对三维空间内领导拦截飞行器和目标飞行器的相对速度矢量表达式(1)求导得到三维空间内领导拦截飞行器与目标飞行器的相对运动模型式(4),对三维空间内拦截飞行器和目标飞行器的相对速度矢量表达式(2)求导得到三维空间内跟随拦截飞行器与目标飞行器的相对运动模型式(5),对三维空间内领导拦截飞行器和反拦截飞行器的相对速度矢量表达式(3)求导得到三维空间内领导拦截飞行器和反拦截飞行器的相对运动模型式(6):
(4);
(5);
(6);
其中:表示目标飞行器加速度垂直于视线方向和视线法向的分量,表示目标飞行器加速度沿视线方向的分量,表示领导拦截飞行器加速度沿视线法向的分量,表示目标飞行器加速度沿视线法向的分量,表示领导拦截飞行器加速度垂直于视线方向和视线法向的分量,表示领导飞行器加速度沿视线方向的分量,表示第个跟随拦截飞行器加速度垂直于视线方向和视线法向的分量,表示第个跟随拦截飞行器加速度沿视线方向的分量,表示第个跟随拦截飞行器加速度沿视线法向的分量,为反拦截飞行器加速度垂直于视线方向和视线法向的分量,为反拦截飞行器加速度沿视线法向的分量。
3.根据权利要求2所述的一种多拦截飞行器协同突防博弈制导律设计方法,其特征在于:步骤S2中满足式(7)各跟随拦截飞行器的剩余飞行时间和领导拦截飞行器的剩余飞行时间达到一致,满足式(8)各跟随拦截飞行器的视线高低角和视线方位角在有限时间内收敛到期望值,满足式(9)领导拦截飞行器的视线高低角和视线方位角在有限时间内收敛到期望值,满足式(10),使各拦截飞行器在绕开反拦截飞行器的攻击的同时,完成对预定目标的攻击:
(7);
(8);
(9);
(10);
其中:表示第个跟随拦截飞行器的剩余飞行时间,表示领导拦截飞行器的剩余飞行时间,表示与第个跟随拦截飞行器最邻近的第个跟随拦截飞行器的剩余飞行时间,表示领导拦截飞行器与反拦截飞行器之间的最大攻击距离,表示领导拦截飞行器与目标飞行器期望攻击距离,表示第个跟随拦截飞行器与目标飞行器期望攻击距离,表示领导拦截飞行器与反拦截飞行器间的视线方位角期望值,表示跟随拦截飞行器与反拦截飞行器间的视线方位角期望值,表示领导拦截飞行器与反拦截飞行器间的视线高低角期望值,表示跟随拦截飞行器与反拦截飞行器间的视线高低角期望值。
4.根据权利要求3所述的一种多拦截飞行器协同突防博弈制导律设计方法,其特征在于:步骤S3中设定的领导拦截飞行器的状态空间为式(11),设定的各跟随拦截飞行器的状态空间为式(12):
(11);
(12);
其中:表示领导拦截飞行器的状态空间,表示第个跟随拦截飞行器的状态空间。
5.根据权利要求4所述的一种多拦截飞行器协同突防博弈制导律设计方法,其特征在于:步骤S4中为各拦截飞行器分别设定动作空间包括如下步骤:
S41:根据式(13)为第个跟随拦截飞行器设计剩余飞行时间:
(13);
其中:表示第一一致性控制函数,表示第二一致性控制函数,表示通信拓扑中第个跟随拦截飞行器与最邻近的第个跟随拦截飞行器的邻接矩阵元素,表示跟随飞行器总数,表示第个跟随拦截飞行器剩余飞行时间控制幂指数,表示通信拓扑中第个跟随拦截飞行器与领导拦截飞行器的邻接矩阵元素;
S42:根据式(14)设计第个跟随拦截飞行器第一有限时间,在区间内存在一个时间点使得第个跟随拦截飞行器的剩余飞行时间和领导拦截飞行器的剩余飞行时间达到一致:
(14);
其中:表示第个跟随拦截飞行器第一有限时间Lyapunov函数,表示第个跟随拦截飞行器Lyapunov函数变量,表示第个跟随拦截飞行器Lyapunov函数变量的初始值,表示第个跟随拦截飞行器第一有限时间Lyapunov函数时间常数;
S43:根据三维空间内领导拦截飞行器与目标飞行器的相对运动模型式(4)得到领导拦截飞行器的视线运动方程为式(15),根据三维空间内跟随拦截飞行器与目标飞行器的相对运动模型式(5)得到第个跟随拦截飞行器的视线运动方程为式(16):
(15);
(16);
S44:通过式(17)计算制导律中领导拦截飞行器加速度沿视线法向的分量及领导拦截飞行器加速度垂直于视线方向和视线法向的分量,并将领导拦截飞行器加速度沿视线法向的分量及领导拦截飞行器加速度垂直于视线方向和视线法向的分量带入到领导拦截飞行器的视线运动方程式(15)中,使领导拦截飞行器的视线角收敛到期望值,通过式(18)计算制导律中各跟随拦截飞行器加速度沿视线法向的分量及各跟随拦截飞行器加速度垂直于视线方向和视线法向的分量,并将各跟随拦截飞行器加速度沿视线法向的分量及各跟随拦截飞行器加速度垂直于视线方向和视线法向的分量带入到第个跟随拦截飞行器的视线运动方程式(16)中,使各跟随拦截飞行器的视线角收敛到期望值:
(17);
(18);
其中:表示领导拦截飞行器导航比,表示领导拦截飞行器视线角控制系数,表示领导拦截飞行器视线角控制幂指数,表示第个跟随拦截飞行器导航比,表示第个跟随拦截飞行器视线角控制系数,表示第个跟随拦截飞行器视线角控制幂指数;
S45:根据式(19)获得的值:
(19);
其中:表示第个跟随拦截飞行器剩余飞行时间的初始值,表示领导拦截飞行器剩余飞行时间的初始值;
S46:设置包含、、的领导拦截飞行器的动作空间,设置包含、、及的跟随拦截飞行器的动作空间,其中表示领导拦截飞行器的动作空间,表示第个跟随拦截飞行器的动作空间。
6.根据权利要求5所述的一种多拦截飞行器协同突防博弈制导律设计方法,其特征在于:步骤S5中根据式(20)设计领导拦截飞行器奖励函数,根据式(21)设计各跟随拦截飞行器奖励函数,根据式(22)设计领导拦截飞行器奖励函数中的参数,根据式(23)设计各跟随拦截飞行器奖励函数中的参数:
(20);
(21);
其中:表示领导拦截飞行器奖励函数,表示领导拦截飞行器剩余飞行时间奖励,表示领导拦截飞行器视线方位角奖励,表示领导拦截飞行器视线高低角奖励,表示领导拦截飞行器与目标飞行器之间的稀疏奖励,表示领导拦截飞行器与反拦截飞行器之间的稀疏奖励,表示领导拦截飞行器整形奖励,表示领导拦截飞行器和目标飞行器距离变化率奖励,表示跟随拦截飞行器奖励函数,表示跟随拦截飞行器剩余飞行时间奖励,表示跟随拦截飞行器视线方位角奖励,表示跟随拦截飞行器视线高低角奖励,表示跟随拦截飞行器稀疏奖励,表示跟随拦截飞行器整形奖励;
(22);
(23);
其中:表示领导拦截飞行器与目标飞行器整形奖励幅度系数,表示领导拦截飞行器与目标飞行器整形奖励基数参数,表示领导拦截飞行器与目标飞行器的初始距离,表示领导拦截飞行器与反拦截飞行器第一幅度系数,表示领导拦截飞行器与反拦截飞行器第二幅度系数,表示领导拦截飞行器剩余飞行时间奖励幅度系数,表示领导拦截飞行器剩余飞行时间奖励基数参数,表示常数,表示领导拦截飞行器视线方位角第一奖励垂直参数,表示领导拦截飞行器视线方位角第一奖励基数系数,表示领导拦截飞行器视线方位角第一奖励幅度系数,表示领导拦截飞行器视线方位角第二奖励垂直参数,表示领导拦截飞行器视线方位角第二奖励基数系数,表示领导飞行器视线方位角第二奖励幅度系数,表示领导拦截飞行器视线方位角第三奖励幅度系数,表示领导拦截飞行器视线方位角第三奖励基数系数,表示领导拦截飞行器视线高低角第一奖励基数系数,表示领导拦截飞行器视线高低角第二奖励基数系数,表示领导拦截飞行器视线高低角奖励垂直参数,表示领导拦截飞行器与目标飞行器第一稀疏奖励垂直参数,表示领导拦截飞行器与目标飞行器第二稀疏奖励垂直参数,表示时间步长幅度系数,表示时间步长,表示领导拦截飞行器与反拦截飞行器稀疏奖励常数,表示第个跟随拦截飞行器与目标飞行器整形奖励幅度系数,表示第个跟随拦截飞行器与目标飞行器整形奖励基数系数,表示第个跟随拦截飞行器与目标飞行器整形奖励垂直系数,表示第个跟随拦截飞行器视线方位角奖励幅度系数,表示第个跟随飞行器剩余飞行时间奖励幅度系数,表示第个跟随拦截飞行器剩余飞行时间奖励基数系数,表示第个跟随飞行器剩余飞行时间奖励垂直系数,表示第个跟随飞行器视线方位角奖励基数系数,表示第个跟随拦截飞行器视线方位角奖励垂直系数,表示第个跟随拦截飞行器视线高低角奖励幅度系数,表示第个跟随拦截飞行器视线方位角奖励垂直系数,表示第个跟随拦截飞行器视线方位角奖励基数系数,表示第个跟随拦截飞行器与目标飞行器第一稀疏奖励垂直参数,表示第个跟随拦截飞行器与目标飞行器第二稀疏奖励垂直参数,表示第个跟随拦截飞行器与目标飞行器第三稀疏奖励垂直参数。
7.根据权利要求6所述的一种多拦截飞行器协同突防博弈制导律设计方法,其特征在于:步骤S6中各拦截飞行器的原始actor网络参数、原始critic网络的参数包括领导拦截飞行器的原始actor网络参数、领导拦截飞行器的原始critic网络第一参数及领导拦截飞行器的原始critic网络第二参数,各跟随拦截飞行器的原始actor网络参数、各跟随拦截飞行器的原始critic网络第一参数及各跟随拦截飞行器的原始critic网络第二参数,各拦截飞行器的目标actor网络参数、目标critic网络参数包括领导拦截飞行器的目标actor网络参数、领导拦截飞行器的目标critic网络第一参数及领导拦截飞行器的目标critic网络第二参数,各拦截飞行器的目标actor网络参数、各拦截飞行器的目标critic网络第一参数及各拦截飞行器的目标critic网络第二参数,赋予领导拦截飞行器的状态为、动作为、奖励为,赋予跟随拦截飞行器的状态为、动作为、奖励为。
8.根据权利要求7所述的一种多拦截飞行器协同突防博弈制导律设计方法,其特征在于:步骤S7中将每一个设定的时间步内获得的经验元组数据存储在缓冲区内。
9.根据权利要求7所述的一种多拦截飞行器协同突防博弈制导律设计方法,其特征在于:步骤S8中更新actor网络参数及critic网络参数包括更新各拦截飞行器的原始actor网络参数、原始critic网络参数以及各拦截飞行器的目标actor网络参数、目标critic网络参数,软更新时更新的参数包括各拦截飞行器的目标actor网络参数、目标critic网络参数。
10.根据权利要求1所述的一种多拦截飞行器协同突防博弈制导律设计方法,其特征在于:步骤S7中对各拦截飞行器在每一个设定的时间步内根据当前actor网络及状态设计动作时,在已经设计的动作空间基础上加入随机噪声。
技术领域
[0001]本发明涉及非电变量的控制或调节系统技术领域,尤其涉及一种多拦截飞行器协同突防博弈制导律设计方法。
背景技术
[0002]由于空中目标通常具有复杂的机动特性,因此依赖单一精确制导飞行器进行拦截的效能急剧下降。然而,单纯通过加强高速、机动、隐身和防欺骗技术等手段提升效能并非最有效的途径,而且在研究过程中可能会付出巨大代价。在这种情况下,多飞行器协同制导技术就成为了快速提升拦截效能的可行途径。这种技术的核心思想在于,通过多枚制导飞行器之间的相互协作和协调,实现对目标的集中拦截,从而最大程度地提高其效能。
[0003]目前,在多飞行器协同制导领域中,基于成型制导律去设计协同制导律是一种较常见的技术;相较于传统的比例导引(PNG),其实现了以固定角度以及同时到达目标区域,形成了较好的中末制导交班态势。另外,在制导控制过程中引入机器学习、强化学习等智能算法同样是具有良好前景的发展方向;当前利用强化学习算法去设计制导律已经极大简化了传统的制导律设计过程,并且无需考虑控制器的复杂结构,从而实现多飞行器对目标的协同拦截效能提高。
[0004]较于传统的比例导引(PNG),基于成型制导律的协同中制导律设计方法虽然可以在末制导阶段实现协同包围拦截,但是仍具有对环境变化不敏感、通用性差等问题;这类方法往往是针对特定任务或场景设计的,较缺乏自适应性和灵活性,在面对复杂和动态的环境时可能无法动态地调整策略以适应环境的变化和不确定性。
[0005]为增强协同制导律的智能性,目前已经将强化学习技术应用在该领域并取得了一定的效果。但其中大部分现有技术均把所有飞行器视为一个简单的智能体去研究,即把各飞行器的剩余飞行时间误差、剩余飞行距离等一同作为强化学习算法的观测量,但这会导致智能体状态空间的爆炸性增长,从而使得学习效率降低和计算复杂度增加;而当面临动态环境和不确定性环境时,这类制导律中的单一智能体需要同时考虑所有飞行器的动作,此时出现的动作选择困难和泛化能力差的等问题可能会极大降低制导精度。至于小部分使用多智能体技术的制导律虽然对状态空间的爆炸性增长的问题有所改进,但在其制导模型的设计上实际上亦只考虑了传统的比例导引法,即仅是把飞行器数量做了增加,并没仔细挖掘怎样通过改进飞行器之间的通信或协同关系,以完成复杂任务的分解与执行。
[0006]另外,目前目标方利用反拦截飞行器对我方飞行器进行反拦截已经是最为常见的拦截手段之一。这时,由于我方制导飞行器受限于自身机动能力和携带载荷能力等方面的不足,往往因无法实现有效的博弈而被反拦截,进而导致制导失败。而以上提到的现有技术并没有考虑到这类涉及博弈突防情况的制导律设计,因而其局限性较大。
发明内容
[0007]本发明所要解决的技术问题是提供一种多拦截飞行器协同突防博弈制导律设计方法,实现了多枚拦截飞行器对目标的同时打击,并且不再需要提前指定攻击时间,而是根据各枚拦截飞行器的剩余飞行时间误差、视线角等生成制导指令,实现了剩余飞行时间的一致性和和视线角收敛到期望值,使多制导拦截飞行器在协同制导过程中面对机动能力更强、响应速度更快的反拦截器时,表现出更高的博弈成功率和目标拦截成功率。
[0008]本发明是通过以下技术方案予以实现:
一种多拦截飞行器协同突防博弈制导律设计方法,其包括如下步骤:
S1:建立目标飞行器、反拦截飞行器及拦截飞行器间的三维相对运动模型,其中拦截飞行器包括一个领导拦截飞行器及多个跟随拦截飞行器;
S2:针对三维相对运动模型设定存在时间,使各拦截飞行器达到下述预设制导效果:各拦截飞行器的剩余飞行时间达到一致,各拦截飞行器的视线高低角和视线方位角在从初始状态到达这段时间内的一个时间点分别收敛到期望值,且在绕开反拦截飞行器攻击的同时,完成对目标飞行器的攻击;
S3:为各拦截飞行器分别设定状态空间;
S4:对协同制导律进行设计,为各拦截飞行器分别设定动作空间,使各拦截飞行器达到步骤S2所述的预设制导效果;
S5:为各拦截飞行器设计奖励函数,使各拦截飞行器与环境交互后的弹目距离趋近于零,高低角、方位角同时趋近于期望值;
S6:初始化各拦截飞行器的状态空间、动作空间、奖励函数及原始actor网络参数、原始critic网络参数、目标actor网络参数、目标critic网络参数,并将根据设定状态空间设计的状态、根据动作空间设计的动作及根据奖励函数设计的奖励分别赋予相应的拦截飞行器;
S7:对各拦截飞行器在每一个设定的时间步内根据当前actor网络及状态选择动作,使各拦截飞行器达到步骤S2所述的预设制导效果,并将每一个设定的时间步内获得的经验元组数据进行存储;
S8:随机抽取多组经验元组数据对actor网络及critic网络进行学习,并更新原始actor网络参数、原始critic网络参数、目标actor网络参数、目标critic网络参数,同时对各拦截飞行器目标actor网络及目标critic网络进行软更新;
S9:重复迭代步骤S7及步骤S8,直至设计的动作使各拦截飞行器达到步骤S2所述的预设制导效果,得到能够达到预设制导效果的各拦截飞行器的动作。
[0009]进一步,步骤S1中按照如下方法建立目标飞行器、反拦截飞行器及拦截飞行器间的三维相对运动模型:
S11:定义三维空间内领导拦截飞行器和目标飞行器的相对速度矢量表达式为式(1),三维空间内跟随拦截飞行器和目标飞行器的相对速度矢量表达式为式(2),三维空间内领导拦截飞行器和反拦截飞行器的相对速度矢量表达式为式(3):
(1);
(2);
(3);
其中:表示领导拦截飞行器与目标飞行器的弹目相对距离,表示领导拦截飞行器与目标飞行器间的视线高低角,表示第个跟随拦截飞行器与目标飞行器的弹目相对距离,表示第个跟随拦截飞行器与目标飞行器间的视线高低角,表示领导拦截飞行器与反拦截飞行器的弹目相对距离,表示领导拦截飞行器与反拦截飞行器间的视线高低角,表示领导飞行器与目标飞行器间的视线方位角,表示第个跟随飞行器与目标飞行器间的视线方位角,表示领导拦截飞行器与反拦截飞行器间的视线方位角,表示三维空间内领导拦截飞行器和目标飞行器的相对速度矢量,表示三维空间内第个跟随拦截飞行器和目标飞行器的相对速度矢量,表示三维空间内领导拦截飞行器和反拦截飞行器的相对速度矢量;
S12:对三维空间内领导拦截飞行器和目标飞行器的相对速度矢量表达式(1)求导得到三维空间内领导拦截飞行器与目标飞行器的相对运动模型式(4),对三维空间内拦截飞行器和目标飞行器的相对速度矢量表达式(2)求导得到三维空间内跟随拦截飞行器与目标飞行器的相对运动模型式(5),对三维空间内领导拦截飞行器和反拦截飞行器的相对速度矢量表达式(3)求导得到三维空间内领导拦截飞行器和反拦截飞行器的相对运动模型式(6):
(4);
(5);
(6);
其中:表示目标飞行器加速度垂直于视线方向和视线法向的分量,表示目标飞行器加速度沿视线方向的分量,表示领导拦截飞行器加速度沿视线法向的分量,表示目标飞行器加速度沿视线法向的分量,表示领导拦截飞行器加速度垂直于视线方向和视线法向的分量,表示领导飞行器加速度沿视线方向的分量,表示第个跟随拦截飞行器加速度垂直于视线方向和视线法向的分量,表示第个跟随拦截飞行器加速度沿视线方向的分量,表示第个跟随拦截飞行器加速度沿视线法向的分量,为反拦截飞行器加速度垂直于视线方向和视线法向的分量,为反拦截飞行器加速度沿视线法向的分量。
[0010]进一步,步骤S2中满足式(7)各跟随拦截飞行器的剩余飞行时间和领导拦截飞行器的剩余飞行时间达到一致,满足式(8)各跟随拦截飞行器的视线高低角和视线方位角在有限时间内收敛到期望值,满足式(9)领导拦截飞行器的视线高低角和视线方位角在有限时间内收敛到期望值,满足式(10),使各拦截飞行器在绕开反拦截飞行器的攻击的同时,完成对预定目标的攻击:
(7);
(8);
(9);
(10);
其中:表示第个跟随拦截飞行器的剩余飞行时间,表示领导拦截飞行器的剩余飞行时间,表示与第个跟随拦截飞行器最邻近的第个跟随拦截飞行器的剩余飞行时间,表示领导拦截飞行器与反拦截飞行器之间的最大攻击距离,表示领导拦截飞行器与目标飞行器期望攻击距离,表示第个跟随拦截飞行器与目标飞行器期望攻击距离,表示领导拦截飞行器与反拦截飞行器间的视线方位角期望值,表示跟随拦截飞行器与反拦截飞行器间的视线方位角期望值,表示领导拦截飞行器与反拦截飞行器间的视线高低角期望值,表示跟随拦截飞行器与反拦截飞行器间的视线高低角期望值。
[0011]进一步,步骤S3中设定的领导拦截飞行器的状态空间为式(11),设定的各跟随拦截飞行器的状态空间为式(12):
(11);
(12);
其中:表示领导拦截飞行器的状态空间,表示第个跟随拦截飞行器的状态空间。
[0012]进一步,步骤S4中为各拦截飞行器分别设定动作空间包括如下步骤:
S41:根据式(13)为第个跟随拦截飞行器设计剩余飞行时间:
(13);
其中:表示第一一致性控制函数,表示第二一致性控制函数,表示通信拓扑中第个跟随拦截飞行器与最邻近的第个跟随拦截飞行器的邻接矩阵元素,表示跟随飞行器总数,表示第个跟随拦截飞行器剩余飞行时间控制幂指数,表示通信拓扑中第个跟随拦截飞行器与领导拦截飞行器的邻接矩阵元素;
S42:根据式(14)设计第个跟随拦截飞行器第一有限时间,在区间内存在一个时间点使得第个跟随拦截飞行器的剩余飞行时间和领导拦截飞行器的剩余飞行时间达到一致:
(14);
其中:表示第个跟随拦截飞行器第一有限时间Lyapunov函数,表示第个跟随拦截飞行器Lyapunov函数变量,表示第个跟随拦截飞行器Lyapunov函数变量的初始值,表示第个跟随拦截飞行器第一有限时间Lyapunov函数时间常数;
S43:根据三维空间内领导拦截飞行器与目标飞行器的相对运动模型式(4)得到领导拦截飞行器的视线运动方程为式(15),根据三维空间内跟随拦截飞行器与目标飞行器的相对运动模型式(5)得到第个跟随拦截飞行器的视线运动方程为式(16):
(15);
(16);
S44:通过式(17)计算制导律中领导拦截飞行器加速度沿视线法向的分量及领导拦截飞行器加速度垂直于视线方向和视线法向的分量,并将领导拦截飞行器加速度沿视线法向的分量及领导拦截飞行器加速度垂直于视线方向和视线法向的分量带入到领导拦截飞行器的视线运动方程式(15)中,使领导拦截飞行器的视线角收敛到期望值,通过式(18)计算制导律中各跟随拦截飞行器加速度沿视线法向的分量及各跟随拦截飞行器加速度垂直于视线方向和视线法向的分量,并将各跟随拦截飞行器加速度沿视线法向的分量及各跟随拦截飞行器加速度垂直于视线方向和视线法向的分量带入到第个跟随拦截飞行器的视线运动方程式(16)中,使各跟随拦截飞行器的视线角收敛到期望值:
(17);
(18);
其中:表示领导拦截飞行器导航比,表示领导拦截飞行器视线角控制系数,表示领导拦截飞行器视线角控制幂指数,表示第个跟随拦截飞行器导航比,表示第个跟随拦截飞行器视线角控制系数,表示第个跟随拦截飞行器视线角控制幂指数;
S45:根据式(19)获得的值:
(19);
其中:表示第个跟随拦截飞行器剩余飞行时间的初始值,表示领导拦截飞行器剩余飞行时间的初始值;
S46:设置包含、、的领导拦截飞行器的动作空间,设置包含、、及的跟随拦截飞行器的动作空间,其中表示领导拦截飞行器的动作空间,表示第个跟随拦截飞行器的动作空间。
[0013]进一步,步骤S5中根据式(20)设计领导拦截飞行器奖励函数,根据式(21)设计各跟随拦截飞行器奖励函数,根据式(22)设计领导拦截飞行器奖励函数中的参数,根据式(23)设计各跟随拦截飞行器奖励函数中的参数:
(20);
(21);
其中:表示领导拦截飞行器奖励函数,表示领导拦截飞行器剩余飞行时间奖励,表示领导拦截飞行器视线方位角奖励,表示领导拦截飞行器视线高低角奖励,表示领导拦截飞行器与目标飞行器之间的稀疏奖励,表示领导拦截飞行器与反拦截飞行器之间的稀疏奖励,表示领导拦截飞行器整形奖励,表示领导拦截飞行器和目标飞行器距离变化率奖励,表示跟随拦截飞行器奖励函数,表示跟随拦截飞行器剩余飞行时间奖励,表示跟随拦截飞行器视线方位角奖励,表示跟随拦截飞行器视线高低角奖励,表示跟随拦截飞行器稀疏奖励,表示跟随拦截飞行器整形奖励;
(22);
(23);
其中:表示领导拦截飞行器与目标飞行器整形奖励幅度系数,表示领导拦截飞行器与目标飞行器整形奖励基数参数,表示领导拦截飞行器与目标飞行器的初始距离,表示领导拦截飞行器与反拦截飞行器第一幅度系数,表示领导拦截飞行器与反拦截飞行器第二幅度系数,表示领导拦截飞行器剩余飞行时间奖励幅度系数,表示领导拦截飞行器剩余飞行时间奖励基数参数,表示常数,表示领导拦截飞行器视线方位角第一奖励垂直参数,表示领导拦截飞行器视线方位角第一奖励基数系数,表示领导拦截飞行器视线方位角第一奖励幅度系数,表示领导拦截飞行器视线方位角第二奖励垂直参数,表示领导拦截飞行器视线方位角第二奖励基数系数,表示领导飞行器视线方位角第二奖励幅度系数,表示领导拦截飞行器视线方位角第三奖励幅度系数,表示领导拦截飞行器视线方位角第三奖励基数系数,表示领导拦截飞行器视线高低角第一奖励基数系数,表示领导拦截飞行器视线高低角第二奖励基数系数,表示领导拦截飞行器视线高低角奖励垂直参数,表示领导拦截飞行器与目标飞行器第一稀疏奖励垂直参数,表示领导拦截飞行器与目标飞行器第二稀疏奖励垂直参数,表示时间步长幅度系数,表示时间步长,表示领导拦截飞行器与反拦截飞行器稀疏奖励常数,表示第个跟随拦截飞行器与目标飞行器整形奖励幅度系数,表示第个跟随拦截飞行器与目标飞行器整形奖励基数系数,表示第个跟随拦截飞行器与目标飞行器整形奖励垂直系数,表示第个跟随拦截飞行器视线方位角奖励幅度系数,表示第个跟随飞行器剩余飞行时间奖励幅度系数,表示第个跟随拦截飞行器剩余飞行时间奖励基数系数,表示第个跟随飞行器剩余飞行时间奖励垂直系数,表示第个跟随飞行器视线方位角奖励基数系数,表示第个跟随拦截飞行器视线方位角奖励垂直系数,表示第个跟随拦截飞行器视线高低角奖励幅度系数,表示第个跟随拦截飞行器视线方位角奖励垂直系数,表示第个跟随拦截飞行器视线方位角奖励基数系数,表示第个跟随拦截飞行器与目标飞行器第一稀疏奖励垂直参数,表示第个跟随拦截飞行器与目标飞行器第二稀疏奖励垂直参数,表示第个跟随拦截飞行器与目标飞行器第三稀疏奖励垂直参数。
[0014]进一步,步骤S6中各拦截飞行器的原始actor网络参数、原始critic网络的参数包括领导拦截飞行器的原始actor网络参数、领导拦截飞行器的原始critic网络第一参数及领导拦截飞行器的原始critic网络第二参数,各跟随拦截飞行器的原始actor网络参数、各跟随拦截飞行器的原始critic网络第一参数及各跟随拦截飞行器的原始critic网络第二参数,各拦截飞行器的目标actor网络参数、目标critic网络参数包括领导拦截飞行器的目标actor网络参数、领导拦截飞行器的目标critic网络第一参数及领导拦截飞行器的目标critic网络第二参数,各拦截飞行器的目标actor网络参数、各拦截飞行器的目标critic网络第一参数及各拦截飞行器的目标critic网络第二参数,赋予领导拦截飞行器的状态为、动作为、奖励为,赋予跟随拦截飞行器的状态为、动作为、奖励为。
[0015]优选的,步骤S7中将每一个设定的时间步内获得的经验元组数据存储在缓冲区内。
[0016]进一步,步骤S8中更新actor网络参数及critic网络参数包括更新各拦截飞行器的原始actor网络参数、原始critic网络参数以及各拦截飞行器的目标actor网络参数、目标critic网络参数,软更新时更新的参数包括各拦截飞行器的目标actor网络参数、目标critic网络参数。
[0017]进一步,步骤S7中对各拦截飞行器在每一个设定的时间步内根据当前actor网络及状态设计动作时,在已经设计出的动作空间基础上加入随机噪声。
[0018]发明的有益效果:
本发明提供的一种多拦截飞行器协同突防博弈制导律设计方法,在多拦截飞行器协同制导过程中,面对反拦截器的威胁时,提高博弈成功率和目标打击成功率,实现拦截飞行器集群的智能协作。我们将各拦截飞行器的剩余飞行时间作为协调变量,并与各拦截飞行器的剩余飞行距离等一同作为强化学习算法的观测量,通过利用各飞行器间距、剩余飞行时间构建奖励函数,训练生成了强化学习多智能体。在制导过程中,各智能体实时生成可同时打击的制导指令,实现了多枚拦截飞行器对目标的同时打击,不再需要提前指定攻击时间,而是根据各枚拦截飞行器的剩余飞行时间误差生成制导指令,实现了剩余飞行时间的一致性。与传统方法相比,本方法增强了拦截飞行器协同作战能力,提高了实时适应性,提升了资源利用效率,增强了系统抗干扰能力。实现了拦截飞行器群智能化,为协同制导的后续发展提供了一个更为先进、灵活和有效的解决方案。本发明方法具有较小的强化学习制导律脱靶量和拦截飞行器之间的剩余飞行时间误差,制导精度高,能够适应未训练的交战场景。基于多智能体强化学习算法设计制导律极大简化了制导律的设计过程,无需考虑控制器的复杂结构和调参过程,缩短了制导律的设计周期,提高了打击效能,仿真结果验证了提出的智能制导律的有效性。
附图说明
[0019]图1是本发明流程示意图。
具体实施方式
[0020]一种多拦截飞行器协同突防博弈制导律设计方法,其流程图如图1所示,具体包括如下步骤:
S1:建立目标飞行器、反拦截飞行器及拦截飞行器间的三维相对运动模型,其中拦截飞行器包括一个领导拦截飞行器及多个跟随拦截飞行器。
[0021]将拦截飞行器分为两种类型:领导拦截飞行器和跟随拦截飞行器。跟随拦截飞行器可以通过领导拦截飞行器的指引去共同完成制导任务。这种协同策略能够巧妙地配置不同功能和类型的飞行器,通过领导拦截飞行器的核心引导作用,与价格低廉的个体相配合,共同完成任务。此外,在多拦截飞行器协同制导任务中,具体环境复杂多变,多个拦截飞行器同时开启导引头,将大大增加我方暴露的风险。而采用领导和跟随拦截飞行器相结合的方式,不仅能够降低基础的消耗,还能够减小被对方发现的可能性。通过任务中实时的信息交互,可以灵活调整策略,从而提升系统的整体作战性能。领导拦截飞行器将自身的状态信息传递给跟随拦截飞行器,而跟随拦截飞行器的运动状态不会影响领导拦截飞行器。
[0022]另外,由于在拦截飞行器群智能协作的过程中,领导拦截飞行器被攻击将影响其他跟随拦截飞行器的制导精度,使导航精度大幅度下滑,因此我们设置反拦截飞行器仅攻击领导拦截飞行器。
[0023]具体的可按照如下方法建立目标飞行器、反拦截飞行器及拦截飞行器间的三维相对运动模型:
S11:定义三维空间内领导拦截飞行器和目标飞行器的相对速度矢量表达式为式(1),三维空间内跟随拦截飞行器和目标飞行器的相对速度矢量表达式为式(2),三维空间内领导拦截飞行器和反拦截飞行器的相对速度矢量表达式为式(3):
(1);
(2);
(3);
其中:表示领导拦截飞行器与目标飞行器的弹目相对距离,表示领导拦截飞行器与目标飞行器间的视线高低角,表示第个跟随拦截飞行器与目标飞行器的弹目相对距离,表示第个跟随拦截飞行器与目标飞行器间的视线高低角,表示领导拦截飞行器与反拦截飞行器的弹目相对距离,表示领导拦截飞行器与反拦截飞行器间的视线高低角,表示领导飞行器与目标飞行器间的视线方位角,表示第个跟随飞行器与目标飞行器间的视线方位角,表示领导拦截飞行器与反拦截飞行器间的视线方位角,表示三维空间内领导拦截飞行器和目标飞行器的相对速度矢量,表示三维空间内第个跟随拦截飞行器和目标飞行器的相对速度矢量,表示三维空间内领导拦截飞行器和反拦截飞行器的相对速度矢量;
S12:对三维空间内领导拦截飞行器和目标飞行器的相对速度矢量表达式(1)求导得到三维空间内领导拦截飞行器与目标飞行器的相对运动模型式(4),对三维空间内拦截飞行器和目标飞行器的相对速度矢量表达式(2)求导得到三维空间内跟随拦截飞行器与目标飞行器的相对运动模型式(5),对三维空间内领导拦截飞行器和反拦截飞行器的相对速度矢量表达式(3)求导得到三维空间内领导拦截飞行器和反拦截飞行器的相对运动模型式(6):
(4);
(5);
(6);
其中:表示目标飞行器加速度垂直于视线方向和视线法向的分量,表示目标飞行器加速度沿视线方向的分量,表示领导拦截飞行器加速度沿视线法向的分量,表示目标飞行器加速度沿视线法向的分量,表示领导拦截飞行器加速度垂直于视线方向和视线法向的分量,表示领导飞行器加速度沿视线方向的分量,表示第个跟随拦截飞行器加速度垂直于视线方向和视线法向的分量,表示第个跟随拦截飞行器加速度沿视线方向的分量,表示第个跟随拦截飞行器加速度沿视线法向的分量,为反拦截飞行器加速度垂直于视线方向和视线法向的分量,为反拦截飞行器加速度沿视线法向的分量。
[0024]S2:针对三维相对运动模型设定存在时间,使各拦截飞行器达到下述预设制导效果:各拦截飞行器的剩余飞行时间达到一致,各拦截飞行器的视线高低角和视线方位角在从初始状态到达这段时间内的一个时间点分别收敛到期望值,且在绕开反拦截飞行器攻击的同时,完成对目标飞行器的攻击;
这里满足式(7)各跟随拦截飞行器的剩余飞行时间和领导拦截飞行器的剩余飞行时间达到一致,满足式(8)各跟随拦截飞行器的视线高低角和视线方位角在有限时间内收敛到期望值,满足式(9)领导拦截飞行器的视线高低角和视线方位角在有限时间内收敛到期望值,满足式(10),使各拦截飞行器在绕开反拦截飞行器的攻击的同时,完成对预定目标的攻击:
(7);
(8);
(9);
(10);
其中:表示第个跟随拦截飞行器的剩余飞行时间,表示领导拦截飞行器的剩余飞行时间,表示与第个跟随拦截飞行器最邻近的第个跟随拦截飞行器的剩余飞行时间,表示领导拦截飞行器与反拦截飞行器之间的最大攻击距离,表示领导拦截飞行器与目标飞行器期望攻击距离,表示第个跟随拦截飞行器与目标飞行器期望攻击距离,表示领导拦截飞行器与反拦截飞行器间的视线方位角期望值,表示跟随拦截飞行器与反拦截飞行器间的视线方位角期望值,表示领导拦截飞行器与反拦截飞行器间的视线高低角期望值,表示跟随拦截飞行器与反拦截飞行器间的视线高低角期望值。
[0025]本步骤将较复杂的多拦截飞行器协同突防博弈制导问题具体化,满足上述式(7)、(8)、(9)、(10)的要求可以使各拦截飞行器的剩余飞行时间达到一致,各拦截飞行器的视线高低角和视线方位角在从初始状态到达这段时间内分别收敛到期望值,且在绕开反拦截飞行器攻击的同时,完成对目标飞行器的攻击。
[0026]S3:为各拦截飞行器分别设定状态空间;
出于安全性质和探测成本的考虑,我们在末制导过程里仅对领导拦截飞行器开导引头,我们令其可实时观测到与目标飞行器有关的状态信息;而对于跟随拦截飞行器,其通常通过与领导拦截飞行器之间的通信来获取与目标飞行器相关的信息,包括飞行器目标距离、视线角转率等。在协同制导系统中,领导拦截飞行器负责探测和跟踪目标,然后将相关信息传输给跟随拦截飞行器。这种通信可以通过各种方式实现,例如无线电链路、数据链路或者其他通信手段。
[0027]具体来说,领导拦截飞行器可以通过自身搭载的传感器,如雷达、红外传感器等,来探测和跟踪目标飞行器。一旦目标飞行器被探测到,领导拦截飞行器会获取目标飞行器的位置、速度等信息,并将这些信息传输给各跟随拦截飞行器。各跟随拦截飞行器接收到这些信息后,可以根据这些数据来计算飞行器目标距离、目标飞行器运动状态等,并相应地调整自身的飞行姿态和导引动作,以实现对目标飞行器的跟踪和打击。根据以上飞行器群协作智能化的基本要求,将每一个拦截飞行器视为一个智能体,并分别为其设置状态空间如下所示:
设定的领导拦截飞行器的状态空间为式(11),设定的各跟随拦截飞行器的状态空间为式(12):
(11);
(12);
其中:表示领导拦截飞行器的状态空间,表示第个跟随拦截飞行器的状态空间。
[0028]S4:对协同制导律进行设计,为各拦截飞行器分别设定动作空间,使各拦截飞行器达到步骤S2所述的预设制导效果;
本步骤详细给出协同制导律设计和算法中所需的动作空间,步骤3中已经将算法中的多智能体与步骤2中给出的各拦截飞行器作了结合,即将每一个拦截飞行器视为一个智能体,并分别为其设置动作空间:
根据多智能体一阶积分系统有限时间一致性算法,给出三维空间内协同制导律视线方向控制定理。利用领导拦截飞行器与跟随拦截飞行器一致性理论和有限时间控制方法,将领导拦截飞行器、跟随拦截飞行器视为领导-跟随多智能体一致性理论中的多智能体,此时会存在一个邻接矩阵去体现其通信拓扑与通信强度;
具体的,为各拦截飞行器分别设定动作空间包括如下步骤:
S41:根据式(13)为第个跟随拦截飞行器设计剩余飞行时间:
(13);
其中:表示第一一致性控制函数,表示第二一致性控制函数,表示通信拓扑中第个跟随拦截飞行器与最邻近的第个跟随拦截飞行器的邻接矩阵元素,表示跟随飞行器总数,表示第个跟随拦截飞行器剩余飞行时间控制幂指数,表示通信拓扑中第个跟随拦截飞行器与领导拦截飞行器的邻接矩阵元素;
S42:根据式(14)设计第个跟随拦截飞行器第一有限时间,在区间内存在一个时间点使得第个跟随拦截飞行器的剩余飞行时间和领导拦截飞行器的剩余飞行时间达到一致:
(14);
其中:表示第个跟随拦截飞行器第一有限时间Lyapunov函数,表示第个跟随拦截飞行器Lyapunov函数变量,表示第个跟随拦截飞行器Lyapunov函数变量的初始值,表示第个跟随拦截飞行器第一有限时间Lyapunov函数时间常数;
S43:设计过程中另一个重要方面是需要控制各拦截飞行器的视线角和方位角转率均收敛到零附近,从而保证各拦截飞行器能够命中目标飞行器,因此根据三维空间内领导拦截飞行器与目标飞行器的相对运动模型式(4)得到领导拦截飞行器的视线运动方程为式(15),根据三维空间内跟随拦截飞行器与目标飞行器的相对运动模型式(5)得到第个跟随拦截飞行器的视线运动方程为式(16):
(15);
(16);
S44:在合理选择参考坐标的情况下,可设计在三维制导模型下的有限时间制导律;即通过用制导律中的跟随飞行器的视线法向加速度和侧向加速度使得各跟随飞行器的视线角收敛到期望值,通过用制导律中领导拦截飞行器加速度沿视线法向的分量和领导拦截飞行器加速度垂直于视线方向和视线法向的分量使得领导拦截飞行器的视线角收敛到期望值:
因此通过式(17)可以计算制导律中领导拦截飞行器加速度沿视线法向的分量及领导拦截飞行器加速度垂直于视线方向和视线法向的分量,并将领导拦截飞行器加速度沿视线法向的分量及领导拦截飞行器加速度垂直于视线方向和视线法向的分量带入到领导拦截飞行器的视线运动方程式(15)中,使领导拦截飞行器的视线角收敛到期望值,通过式(18)计算制导律中各跟随拦截飞行器加速度沿视线法向的分量及各跟随拦截飞行器加速度垂直于视线方向和视线法向的分量,并将各跟随拦截飞行器加速度沿视线法向的分量及各跟随拦截飞行器加速度垂直于视线方向和视线法向的分量带入到第个跟随拦截飞行器的视线运动方程式(16)中,使各跟随拦截飞行器的视线角收敛到期望值:
(17);
(18);
其中:表示领导拦截飞行器导航比,表示领导拦截飞行器视线角控制系数,表示领导拦截飞行器视线角控制幂指数,表示第个跟随拦截飞行器导航比,表示第个跟随拦截飞行器视线角控制系数,表示第个跟随拦截飞行器视线角控制幂指数,表示领导拦截飞行器与反拦截飞行器间的视线方位角期望值,表示跟随拦截飞行器与反拦截飞行器间的视线方位角期望值,表示领导拦截飞行器与反拦截飞行器间的视线高低角期望值,表示跟随拦截飞行器与反拦截飞行器间的视线高低角期望值。
[0029]这里要求,该制导律设计可以保证在协同末制导过程中第个跟随拦截飞行器和领导拦截飞行器的视线高低角和视线方位角在有限时间内收敛到期望值,从而实现对目标飞行器的拦截,并且参数越小、越大,该制导系统的收敛速度越快。因此可以根据已经设计的协同制导律去构造动作空间。
[0030]S45:根据式(19)获得的值:
(19);
其中:表示第个跟随拦截飞行器剩余飞行时间的初始值,表示领导拦截飞行器剩余飞行时间的初始值;
这里取所有跟随拦截飞行器剩余飞行时间的初始值、所有跟随拦截飞行器第一有限时间、领导拦截飞行器剩余飞行时间的初始值中的最大值,可以确保拦截任务的同步性和一致性,减少了由于时间差异带来的不确定性,从而提升了任务的成功率。
[0031]S46:设置包含、、的领导拦截飞行器的动作空间,设置包含、、及的跟随拦截飞行器的动作空间,其中表示领导拦截飞行器的动作空间,表示第个跟随拦截飞行器的动作空间。
[0032]通过分析,我们已经给出了多拦截飞行器智能协同突防博弈制导方法中基本的多飞行器制导律设计部分和动作空间的设计。与传统的比例导引类似,在根据经验人工给出一个固定的导航比时,虽然在一般情况下也可一定的成功率完成制导任务,但是往往会存在飞行时间较长等问题;另外,如果存在反拦截飞行器的话,因为其智能性较低,被拦截的几率也会很大。因此需要进一步进行奖励函数的设计。
[0033]S5:为各拦截飞行器设计奖励函数,使各拦截飞行器与环境交互后的弹目距离趋近于0,视线高低角、视线方位角同时趋近于其期望值;
前面已经将算法中的多智能体与各拦截飞行器作了结合,并设计了领导拦截飞行器与跟随拦截飞行器的状态空间,以及领导拦截飞行器与跟随拦截飞行器的动作空间。本步骤的奖励函数设计完成后,将和已设计完成的领导拦截飞行器与跟随拦截飞行器的动作空间、领导拦截飞行器与跟随拦截飞行器的状态空间一同用于步骤6中的强化学习的初始化过程中。
[0034]在多拦截飞行器智能协同突防博弈制导方法中,我们所设计的奖励函数应当引导各拦截飞行器所对应的智能体通过与环境的交互,使得弹目距离趋近于0,高低角和方位角同时趋近于期望值,从而完成打击任务。通过设计合适的奖励函数,可以有效引导各智能体学习到适合当前任务的最优策略,从而实现多弹协同制导任务的高效完成。
[0035]对于领导拦截飞行器,其奖励函数的任务是协调和引导跟随拦截飞行器完成任务。因此,其奖励函数可以设计为使得跟随拦截飞行器的状态尽可能接近目标飞行器状态的行动受到奖励,比如减小弹目距离的差值。同时,对于领导拦截飞行器,可以设计额外的奖励项,鼓励其保持领导者的姿态和策略,以确保整个团队的协同效率。对于跟随拦截飞行器,其奖励函数的任务是根据领导拦截飞行器的指导和环境信息来调整自己的状态,以便实现与领导拦截飞行器的协同行动。因此,其奖励函数应该鼓励其采取能够使自己的状态与领导拦截飞行器接近的行动,比如对齐自己的姿态和速度与领导拦截飞行器一致。同时,对于跟随拦截飞行器,也可以设计奖励项来鼓励其保持与领导拦截飞行器的稳定通信和协同行动。
[0036]在这种多弹协同制导的情景中,奖励函数在强化学习过程中发挥着至关重要的作用。奖励函数用于评估各智能体在环境中的行为,并根据其行为的好坏程度给予相应的奖励或惩罚,以引导智能体学习到最优的行为策略。
[0037]具体的,可以按照如下方法设计奖励函数:
首先根据式(20)设计领导拦截飞行器奖励函数,根据式(21)设计各跟随拦截飞行器奖励函数,根据式(22)设计领导拦截飞行器奖励函数中的参数,根据式(23)设计各跟随拦截飞行器奖励函数中的参数:
(20);
(21);
其中:表示领导拦截飞行器奖励函数,表示领导拦截飞行器剩余飞行时间奖励,表示领导拦截飞行器视线方位角奖励,表示领导拦截飞行器视线高低角奖励,表示领导拦截飞行器与目标飞行器之间的稀疏奖励,表示领导拦截飞行器与反拦截飞行器之间的稀疏奖励,表示领导拦截飞行器整形奖励,表示领导拦截飞行器和目标飞行器距离变化率奖励,表示跟随拦截飞行器奖励函数,表示跟随拦截飞行器剩余飞行时间奖励,表示跟随拦截飞行器视线方位角奖励,表示跟随拦截飞行器视线高低角奖励,表示跟随拦截飞行器稀疏奖励,表示跟随拦截飞行器整形奖励;
(22);
(23);
其中:表示领导拦截飞行器与目标飞行器整形奖励幅度系数,表示领导拦截飞行器与目标飞行器整形奖励基数参数,表示领导拦截飞行器与目标飞行器的初始距离,表示领导拦截飞行器与反拦截飞行器第一幅度系数,表示领导拦截飞行器与反拦截飞行器第二幅度系数,表示领导拦截飞行器剩余飞行时间奖励幅度系数,表示领导拦截飞行器剩余飞行时间奖励基数参数,表示常数,表示领导拦截飞行器视线方位角第一奖励垂直参数,表示领导拦截飞行器视线方位角第一奖励基数系数,表示领导拦截飞行器视线方位角第一奖励幅度系数,表示领导拦截飞行器视线方位角第二奖励垂直参数,表示领导拦截飞行器视线方位角第二奖励基数系数,表示领导飞行器视线方位角第二奖励幅度系数,表示领导拦截飞行器视线方位角第三奖励幅度系数,表示领导拦截飞行器视线方位角第三奖励基数系数,表示领导拦截飞行器视线高低角第一奖励基数系数,表示领导拦截飞行器视线高低角第二奖励基数系数,表示领导拦截飞行器视线高低角奖励垂直参数,表示领导拦截飞行器与目标飞行器第一稀疏奖励垂直参数,表示领导拦截飞行器与目标飞行器第二稀疏奖励垂直参数,表示时间步长幅度系数,表示时间步长,表示领导拦截飞行器与反拦截飞行器稀疏奖励常数,表示第个跟随拦截飞行器与目标飞行器整形奖励幅度系数,表示第个跟随拦截飞行器与目标飞行器整形奖励基数系数,表示第个跟随拦截飞行器与目标飞行器整形奖励垂直系数,表示第个跟随拦截飞行器视线方位角奖励幅度系数,表示第个跟随飞行器剩余飞行时间奖励幅度系数,表示第个跟随拦截飞行器剩余飞行时间奖励基数系数,表示第个跟随飞行器剩余飞行时间奖励垂直系数,表示第个跟随飞行器视线方位角奖励基数系数,表示第个跟随拦截飞行器视线方位角奖励垂直系数,表示第个跟随拦截飞行器视线高低角奖励幅度系数,表示第个跟随拦截飞行器视线方位角奖励垂直系数,表示第个跟随拦截飞行器视线方位角奖励基数系数,表示第个跟随拦截飞行器与目标飞行器第一稀疏奖励垂直参数,表示第个跟随拦截飞行器与目标飞行器第二稀疏奖励垂直参数,表示第个跟随拦截飞行器与目标飞行器第三稀疏奖励垂直参数。
[0038]这里设置整形奖励的目的是减小领导拦截飞行器与目标飞行器的弹目相对距离以及跟随拦截飞行器与目标飞行器的弹目相对距离以及增加领导拦截飞行器与反拦截飞行器的距离,他的设计可以令领导拦截飞行器远离反拦截飞行器的同时拉近与目标飞行器之间的距离,其设定符合博弈对抗的任务需求。
[0039]同时设计稀疏奖励,在拦截飞行器有限时间内完成打击任务时给予正向奖励,反之则给予一个负向奖励,且规定在对抗结束时拦截飞行器与目标飞行器之间距离越大,惩罚也越大,在拦截飞行器有限时间内不被反拦截飞行器攻击时给予正向奖励,反之则不给予奖励。
[0040]S6:初始化各拦截飞行器的状态空间、动作空间、奖励函数及原始actor网络参数、原始critic网络参数、目标actor网络参数、目标critic网络参数,并将根据设定状态空间设计的状态、根据动作空间设计的动作及根据奖励函数设计的奖励分别赋予相应的拦截飞行器;
前面已经将算法中的多智能体与给出的各拦截飞行器作了结合,即将每一个拦截飞行器,包括领导拦截飞行器与跟随拦截飞行器均视为一个智能体,并设计了领导拦截飞行器与跟随拦截飞行器的状态空间,以及领导拦截飞行器与跟随拦截飞行器的动作空间、领导拦截飞行器与跟随拦截飞行器的奖励函数,设计完成后一同用于本步骤的强化学习初始化过程中。
[0041]所谓状态是环境的一种特定情况或配置,状态空间则是描述环境中所有可能状态的集合。动作是智能体在某个状态下可以采取的行动或决策,动作空间描述了智能体可用动作的集合。奖励是环境在智能体执行某个动作后立即提供的反馈信号,奖励函数定义了智能体在环境中采取动作后获得的即时奖励。
[0042]具体的,各拦截飞行器的原始actor网络参数、原始critic网络的参数包括领导拦截飞行器的原始actor网络参数、领导拦截飞行器的原始critic网络第一参数及领导拦截飞行器的原始critic网络第二参数,各跟随拦截飞行器的原始actor网络参数、各跟随拦截飞行器的原始critic网络第一参数及各跟随拦截飞行器的原始critic网络第二参数,各拦截飞行器的目标actor网络参数、目标critic网络参数包括领导拦截飞行器的目标actor网络参数、领导拦截飞行器的目标critic网络第一参数及领导拦截飞行器的目标critic网络第二参数,各拦截飞行器的目标actor网络参数、各拦截飞行器的目标critic网络第一参数及各拦截飞行器的目标critic网络第二参数,赋予领导拦截飞行器的状态为、动作为、奖励为,赋予跟随拦截飞行器的状态为、动作为、奖励为。
[0043]S7:对各拦截飞行器在每一个设定的时间步内根据当前actor网络及状态选择动作,使各拦截飞行器达到步骤S2所述的预设制导效果,并将每一个设定的时间步内获得的经验元组数据进行存储;
具体存储时,可以将每一个设定的时间步内获得的经验元组数据存储在缓冲区内,为了有效学习和利用过去的经验,算法使用经验回放机制,将所有智能体在与环境交互过程中产生的转换,包括状态、动作、奖励形成的经验元组数据都会被存储在这个缓冲区中,用于后续的学习和训练,便于后续学习训练的数据提取利用。
[0044]并且各拦截飞行器在每一个设定的时间步内根据当前actor网络及状态选择动作时,可以在已经选择出的动作空间基础上加入随机噪声,这个随机噪声可以是高斯噪声或其他噪声,用于探索新的可能动作,防止算法过早收敛到局部最优。
[0045]S8:随机抽取多组经验元组数据对actor网络及critic网络进行学习,并更新原始actor网络参数、原始critic网络参数、目标actor网络参数、目标critic网络参数,同时对各拦截飞行器目标actor网络及目标critic网络进行软更新;
具体更新actor网络参数及critic网络参数包括更新各拦截飞行器的原始actor网络参数、原始critic网络参数以及各拦截飞行器的目标actor网络参数、目标critic网络参数,软更新时更新的参数包括各拦截飞行器的目标actor网络参数、目标critic网络参数。
[0046]随机采样经验元组样本的作用是为了减少样本之间的相关性,使得强化学习的训练过程更加稳定,并且可以有效地利用过去的经验来更新网络参数。同时,领导拦截飞行器及每个跟随拦截飞行器的critic网络参数的更新,可以提供对actor网络生成动作、的质量评估,有助于actor网络生成更好的动作,从而有效的提高制导的成功率。更新 actor网络参数的过程可以使得critic网络更准确地给出actor网络生成动作、的质量评估,从而大大提高智能体的决策性能。
[0047]S9:重复迭代步骤S7及步骤S8,直至设计的动作使各拦截飞行器达到步骤S2所述的预设制导效果,得到能够达到预设制导效果的各拦截飞行器的动作。
[0048]领导拦截飞行器使用软更新规则、、去软更新目标actor网络参数、目标critic网络参数,其中为软更新系数,跟随拦截飞行器智能体使用软更新规则、、去软更新目标actor网络参数、目标critic网络参数,此更新可以减少训练过程中的参数更新幅度,从而减缓网络参数的变化速度,使训练过程更加稳定,有助于防止训练过程中的剧烈波动或震荡,提高了训练的稳定性。
[0049]得到能够达到预设制导效果的各拦截飞行器的动作空间,就得到了已经学会协同突防博弈制导的领导拦截飞行器和跟随拦截飞行器,每个跟随拦截飞行器经过训练后将拥有独立的决策能力和行动能力,它们将学会根据领导拦截飞行器的引导以及自身观察到的状态信息,调整自己的飞行路径和姿态,以实现对目标飞行器的协同攻击,同时躲避反拦截飞行器的攻击。最后,即可进行其他制导测试,以测试智能体的性能优劣。
[0050]综上所述,本发明提供一种多拦截飞行器协同突防博弈制导律设计方法,相比于传统的协同制导方法有以下区别:
一、增强了拦截飞行器的适应性和鲁棒性
在多变的环境和复杂的干扰条件下,能够使每个拦截飞行器能够根据实时反馈自适应地调整自己的策略,提高整个飞行器群的适应性和生存率。通过此类决策和控制,即使部分跟随拦截飞行器发生故障或被摧毁,整个系统仍能维持较高的任务完成率。
[0051]二、增强了决策能力
通过深度强化学习让每个拦截飞行器学习如何在不确定的环境中做出最优决策,这包括在遭遇敌方干扰、突发情况下如何有效应对,从而提高了整个系统的决策质量和效率。相比于传统方法里根据专家的人工经验去选择有关参数,多智能体强化学习的加入可以大大提高制导的效率和效果。
[0052]三、高度的协同效率
通过设计合适的奖励函数,我们可以以智能化思想去促进拦截飞行器之间的高效协同,例如,在保持形态、调整速度和攻击时机上实现更高程度的同步和协调,优于传统方法中往往靠预设程序或简单规则实现协同。
[0053]四、复杂任务的分解与执行
采用领导拦截飞行器与跟随拦截飞行器结构允许将复杂任务分解成较小、更易管理的子任务,领导飞行器负责总体战术指导和目标分配,跟随拦截飞行器执行具体打击任务。这种分工使任务执行更为灵活高效,且优于传统方法中仅能使拦截飞行器打击目标飞行器,进一步的完成了制导中博弈突防的过程,即多拦截飞行器可以在绕开反拦截飞行器的反拦截的同时,完成对预定目标飞行器的拦截。
[0054]五、动态学习与优化
不同于传统方法多依赖于事先规划和固定策略,允许拦截飞行器在执行任务过程中持续学习和优化行为策略,提升对抗策略的有效性。
[0055]具体实施例如下:
首先给出一个初始化环境如表一所示:
表一
[0056]各飞行器测试初始状态参数如表二所示:
表二
[0057]按照本发明提供的方法构建三维空间内领导拦截飞行器与目标飞行器的相对运动模型,三维空间内各跟随拦截飞行器与目标飞行器的相对运动模型和三维空间内领导拦截飞行器和反拦截飞行器的相对运动模型,即构成一个三维空间内多飞行器智能协同突防博弈制导环境。
[0058]在已经设置的三维空间内多飞行器智能协同突防博弈制导环境中,将多智能体与领导拦截飞行器、跟随拦截飞行器作结合,分别构造算法中所需的状态空间、动作空间及奖励函数。
[0059],
,
,
,
,
,
,,,,,
,
,,,。
[0060]初始化每个飞行器智能体的actor网络和critic网络的参数,通常这些目标网络的初始参数直接复制自相应的原网络;同时需要初始化经验回放缓冲区,为了有效学习和利用过去的经验,使用经验回放机制,其中涉及初始化一个经验回放缓冲区。所有智能体在与环境交互过程中产生的转换,包括状态、动作、奖励和下一个状态都会被存储在这个缓冲区中,用于后续的学习和训练。
[0061]具体实施方式中的超参数如表三所示:
表三
[0062]在每次迭代时均需要根据表一给出的参数范围随机对三维空间内多飞行器智能协同突防博弈制导环境初始化。
[0063]开始训练过程,对于领导拦截飞行器对应的智能体,均会在每一个时间步根据当前actor网络和可观测到的状态选择出合理的动作;对于每一个跟随拦截飞行器对应的智能体,均会在每一个时间步根据actor网络和选择合理的动作,当领导拦截飞行器智能体及每个跟随拦截飞行器智能体选择动作空间时,都会在已经选择出的动作空间的基础上加入一定的噪声。这个噪声通常是随机的,比如高斯噪声,用于探索新的可能动作,防止算法过早收敛到局部最优。然后,各智能体执行自身选择出的动作、,从而得到相应的新的状态、以及智能体各自相应的奖励、。
[0064]对于已经返回的状态等,需要将经验元组存储到经验回放缓冲区中,用于后续的学习。随机抽取一批经验样本从经验回放缓冲区,对于每个智能体,均需要更新其Critic网络和Actor网络的参数。
[0065]接下来,在每次迭代后需要进行一次软更新目标网络。即使用软更新规则逐步将目标网络参数向原网络参数靠拢,确保学习过程的稳定性。另外,由于目标网络参数的更新更加缓慢,模型不会过度适应于最近的状态转换,这有助于提高模型的泛化能力,减少过拟合的风险。
[0066]当已训练的轮数达到预设的训练轮数时结束整个过程,制导律设计完成,得到已经学会协同突防博弈制导的领导拦截飞行器和跟随拦截飞行器,各跟随拦截飞行器经过训练后将拥有独立的决策能力和行动能力,它们将学会根据领导拦截飞行器的引导以及自身观察到的状态信息,调整自己的飞行路径和姿态,以实现对目标的协同攻击,同时躲避反拦截飞行器的攻击。
[0067]最后,即可进行其他制导测试;以表二给出的参数对三维空间内多飞行器智能协同突防博弈制导环境初始化后,可以利用已经训练好的智能体去完成协同博弈制导任务,以测试本方法的性能优劣。
[0068]根据本发明的一个具体实施例子,对此初始条件下使用本发明提供的制导律设计方法,可以初步得到越来越良好的策略网络,即得到更好的动作空间去完成预定的制导目标,直到满足预设的终止条件为止。
[0069]总体而言,本发明在多拦截飞行器协同制导中的应用,通过其高度的适应性、强大的决策能力以及协同效率,提供了一个相比传统方法更为先进、灵活和有效的解决方案。
[0070]以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。