[期刊论文] 金伟成, 陈提, 胡海岩, 含动力学奖励的航天器编队深度强化学习控制, 自动化学报, 2025, 51(10): 2283-2292.

发布者：孙加亮发布时间：2025-10-30浏览次数：213

含动力学奖励的航天器编队深度强化学习控制

金伟成, 陈提, 胡海岩

摘要：提出一种航天器编队的深度强化学习控制方法。该方法通过引入动力学奖励，考虑轨迹的动力学可行性并优化燃料消耗量。在训练环境中，引入J2摄动相对动力学模型，基于近端策略优化算法，将航天器的局部观测信息作为策略网络和评价网络的输入。策略网络输出航天器的期望位置和速度，结合动力学模型限制策略任意动作之间的转换控制，使输出轨迹考虑动力学可行性。评价网络基于局部观测信息估计由动力学模型限制的优势函数，从而辅助策略网络更新参数。进一步地，以燃料消耗量的负数作为动力学奖励，结合避撞和任务相关奖励后，训练得到的策略网络在完成航天器编队任务的同时优化了燃料消耗。

文章链接：

https://ss.zhizhen.com/detail_38502727e7500f26419f2d46e9cdab69140856d2ad891a5d1921b0a3ea255101fc1cf1fbb4666ae685ead44acf8fabb5cd3df7f2695187c123c822549019f266db03e347f745cf97e8902cc694bc8db1?&apistrclassfy=0_20_3