含动力学奖励的航天器编队深度强化学习控制
金伟成, 陈提, 胡海岩
摘要:提出一种航天器编队的深度强化学习控制方法。该方法通过引入动力学奖励,考虑轨迹的动力学可行性并优化燃料消耗量。在训练环境中,引入J2摄动相对动力学模型,基于近端策略优化算法,将航天器的局部观测信息作为策略网络和评价网络的输入。策略网络输出航天器的期望位置和速度,结合动力学模型限制策略任意动作之间的转换控制,使输出轨迹考虑动力学可行性。评价网络基于局部观测信息估计由动力学模型限制的优势函数,从而辅助策略网络更新参数。进一步地,以燃料消耗量的负数作为动力学奖励,结合避撞和任务相关奖励后,训练得到的策略网络在完成航天器编队任务的同时优化了燃料消耗。
文章链接:




