近日,中国科学院工程热物理研究所无人飞行器实验室团队利用深度强化学习技术,开展了基于能量优化的太阳能无人机轨迹规划研究。该研究为增强高空长航时太阳能无人机自主飞行、智能规划能力提供了新的解决思路。
高空长航时(HALE)太阳能无人机依靠取之不尽的太阳能可在临近空间停留数周或更长时间,以执行通信中继、空中侦察和灾害监控等任务。然而,受储能电池和光伏电池效率的限制,HALE无人机平台的尺寸正在不断增加以满足更多有效载荷的需求。因此,科研人员正在寻找有效方法帮助无人机充分利用可获取的能量,轨迹优化作为重点方向之一,是涉及大气环境、飞行姿态和飞行任务约束的综合问题。当前,使用离线优化算法解决该类问题虽能保证解序列趋于最优化,但无法对飞行过程中的不确定性进行实时纠正以调整飞行状态;而模型预测控制、动态规划等在线算法通常采用滚动方法在有限的视界内进行优化,同时结合迭代算法进行求解,有限的算力将导致计算效率下降。
研究团队利用强化学习算法,借助神经网络实现将动态轨迹生成向端到端控制的转换,设计并建立完整的高空长航时太阳能飞机数值仿真环境以及强化学习框架(图1)。研究以能量最大化为目标,引入势能/电能优先策略下的不同奖励函数,经训练的神经网络控制器可自主学习充电、爬升、高空巡航、下降、低空盘旋五个阶段(图2),并针对未经重复优化的控制器开展60*24h久航仿真分析(图3)。结果表明,采用强化学习控制器的无人机经过完整昼夜飞行后,电池剩余能量得到不同程度的提高,同时控制器可以根据当前飞行和辐照信息重新预测未来的轨迹,平均单步推理仅用时1ms,进一步提升了高空长航时太阳能无人机的自主飞行能力。目前,实验室正在进行基于高空多种能量的综合航迹优化进行可行性分析,下一阶段将开展相关框架的平台部署及验证工作。
相关研究成果发表在Chinese Journal of Aeronautics上。研究工作得到中科院特别研究助理项目的支持。
图1.基于Soft Actor-Critic算法的控制器框架
图2.势能/电量优先策略下的不同飞行剖面。(a)势能优先,(b)电能优先
图3.久航仿真信息分析
(来源:工程热物理研究所)