您当前的位置: 首页 >> 研究方向 >> 正文
强化学习与智能博弈实验室
2022/11/30

       本实验主要针对深度强化学习技术应用、群体无人系统智能博弈、人机感知决策智能融合及自博弈与多样策略生成等方面展开研究,致力于推动兵棋推演、无人智能博弈、人机混合智能空战等相关算法的研究与应用,从而实现复杂、高动态环境下的智能博弈策略生成。


1.自研智能空中博弈平台(智空平台)

最新成果

实验室自研“智空”训练与推演平台融入了高保真度的6DOF飞机动力学(包括飞机与导弹),具有完善的支撑人工智能训练的数据接口,支持大规模并行训练,加速比高达200倍。支撑多博弈模式:机机博弈-人机博弈-人人博弈-人机混合博弈,以及不同维度的人机多交互方式:宏观任务-中层战术-底层机动。

平台展示

      

平台支撑第七届兵棋推演大赛:



2.基于智空平台的无人机空中博弈

研究内容:

基于所构建高保真度空中智能博弈典型场景与训练环境,针对无人空中智能博弈、人机混合空中智能博弈等不同博弈形态开展算法研究,丰富无人与人机混合博弈的方法、数据、案例,提升其对复杂态势与多类场景的泛化性与鲁棒性。

最新成果

[1]L. Lun, X. Zhang*, C.Chen, R. Wang, Basic Flight Maneuver Generation of Fixed-Wing Plane Based on Proximal Policy Optimization, Neural Computing and Applications, 2022, minor revision

实验效果


1 v 1机动飞行


3.兵棋推演

研究内容

实时策略类兵棋推演,通过计算机仿真技术,对现实世界博弈问题进行模拟,能够支撑不对称不完全信息下的动态博弈。通过充分利用对阵多个对手收集的数据、知识和规则,建立和优化决策模型。此研究能够为生成作战方案和战术分析提供数据支撑,控制作战单元进行对抗或辅助专家进行决策,为我国智能化作战进程提供助力。

复杂战场下海空协同博弈推演



最新成果

获“墨子杯”2021第五届全国兵棋推演大赛专项赛事亚军

2022年全国智能联合海上作战算法赛 二等奖、优秀算法

2023年第七届全国兵棋推演大赛 智能空中博弈算法挑战赛 科目1季军、优秀算法;科目2冠军、优秀算法;科目3季军。

 

4.移动机器人零和博弈

研究内容

研究以移动机器人或飞行器为博弈局中人的零和博弈问题。其中,移动机器人或飞行器均满足运动学约束,机动控制与武器控制构成连续离散混合动作空间,维度高且配合关系复杂,加之博弈问题回报稀疏且延迟,信用分配问题严重,具有很大的求解难度。具体包括连续离散混合动作空间博弈、无人机空中缠斗(狗斗)以及移动机器人追逃博弈等问题。

最新成果

[1] F. Jiang, X. Guo, X. Zhang, Z. Zhang and D. Dong, Approximate Soft Policy Iteration Based Reinforcement Learning for Differential Games with Two Pursuers versus One Evader, 2020 5th International Conference on Advanced Robotics and Mechatronics, Shenzhen, China, 2020, pp. 471-476.

[2] Qi, X. Zhang and X. Guo, A Deep Reinforcement Learning Approach for the Pursuit Evasion Game in the Presence of Obstacles, 2020 IEEE International Conference on Real-time Computing and Robotics (RCAR), 2020, pp. 68-73, doi: 10.1109/RCAR49640.2020.9303044.

[3] M. Gu, X. Guo and X. Zhang, Robot Confrontation Based On Genetic Fuzzy System Guided Deep Deterministic Policy Gradient Algorithm,2020 Chinese Automation Congress (CAC), 2020, pp. 538-544, doi: 10.1109/CAC51589.2020.9326610.

实验效果


2007B         25756

18ED8         225D3

连续离散混合动作空间博弈

 

                           

     态障碍物环境下的泛化能力                                              态障碍物场景下的追逃博弈                  

 

下一条:无