[期刊论文] 金伟成, 陈提, 胡海岩, 含动力学奖励的航天器编队深度强化学习控制, 自动化学报, 2025, 51(10): 2283-2292.

发布者:孙加亮发布时间:2025-10-30浏览次数:213

含动力学奖励的航天器编队深度强化学习控制

金伟成, 陈提, 胡海岩


摘要:提出一种航天器编队的深度强化学习控制方法。该方法通过引入动力学奖励,考虑轨迹的动力学可行性并优化燃料消耗量。在训练环境中,引入J2摄动相对动力学模型,基于近端策略优化算法,将航天器的局部观测信息作为策略网络和评价网络的输入。策略网络输出航天器的期望位置和速度,结合动力学模型限制策略任意动作之间的转换控制,使输出轨迹考虑动力学可行性。评价网络基于局部观测信息估计由动力学模型限制的优势函数,从而辅助策略网络更新参数。进一步地,以燃料消耗量的负数作为动力学奖励,结合避撞和任务相关奖励后,训练得到的策略网络在完成航天器编队任务的同时优化了燃料消耗。


文章链接:

https://ss.zhizhen.com/detail_38502727e7500f26419f2d46e9cdab69140856d2ad891a5d1921b0a3ea255101fc1cf1fbb4666ae685ead44acf8fabb5cd3df7f2695187c123c822549019f266db03e347f745cf97e8902cc694bc8db1?&apistrclassfy=0_20_3