NIC Lab | 殷书慧

个人信息

参与实验室科研项目

复杂环境下非完全信息博弈决策的智能基础模型研究

研究课题

针对不确定复杂环境下多群体博弈决策中的瓶颈问题，围绕其非完全信息、高智能、强动态的特点，从智能模型构建、多群体博弈决策理论形成以及人机对抗性能验证与评估等层面开展研究。

学术成果

共撰写/参与撰写专利 0 项，录用/发表论文 1 篇，投出待录用论文0篇。联培学生可能有其他不在此展示的论文/专利。

Conference Articles

Air Combat Maneuver Decision Based on Deep Reinforcement Learning and Game Theory Shuhui Yin, Yu Kang, Yun-Bo Zhao , and Jian Xue In 2022 41st Chinese Control Conference (CCC) 2022 [Abs] [doi] [pdf]
The autonomous maneuver decision of UA V plays an important role in future air combat. However, the strong competitiveness of the air combat environment and the uncertainty of the opponent make it difficult to solve the optimal strategy. For these problems, we propose the algorithm based on deep reinforcement learning and game theory, which settles the matter that the existing methods cannot solve Nash equilibrium strategy in highly competitive environment. Specifically, 1 vl air combat is modeled as a two-player zero-sum Markov game, and a simplified two-dimensional simulation environment is constructed. We prove that the algorithm has good convergence through the simulation test. Compared with the opponent’s strategy using DQN, our algorithm has better air combat performance and is more suitable for the air combat game environment.

学位论文

Theses

基于博弈模型的无人机机动决策方法研究殷书慧中国科学技术大学, 合肥 2023 [Abs] [pdf]
无人机作为未来战场的核心力量对于夺取制空权起到至关重要的作用，其自主机动决策能力是发挥作战效能的关键所在。现有的空战决策方法诸如微分对策、专家系统等虽取得一定成果，但仍存在着搜索决策结果耗时长、适应性差等局限性。因此，如何在高动态、强竞争性的无人机对抗环境下进行快速准确的机动决策是本论文主要研究的问题。本文以近距对抗为背景，以博弈理论为基础，以智能算法为工具，围绕基于博弈模型的无人机机动决策方法展开研究，具体研究工作如下：（1）基于 F-16 机型无人机进行控制参数设计，并在此基础上对基本操纵动作库进行丰富和改进，设计了无人机的机动空间，构建了无人机的机动策略集。仿真实验分别对所设计的控制参数和机动空间进行测试，结果都满足设计需求。（2）针对基本群智算法搜索决策结果计算效率低且容易陷入局部最优值的问题，提出了一种改进粒子群算法求解最优机动策略。首先，建立了无人机一对一动态博弈模型。然后，将博弈混合策略纳什均衡难于求解的问题转化为最优化问题进行搜索寻优，提出了一种改进的群体智能优化算法，通过粒子浓度的概率选择来控制种群多样性，以降低在优化收敛阶段陷入局部最优值的可能性。最后将其应用到无人机对抗机动决策中，设计了单机对抗仿真实验对比改进后算法的性能，结果表明改进粒子群算法提升了全局搜索效率和寻优精度，提高了无人机对抗机动决策中求解最优机动策略的计算效率和准确度。（3）针对传统强化学习算法在处理高维状态输入时存在的维数爆炸问题，以及倾向于单方面最优化自身策略而不考虑对手策略影响的问题，提出了一种改进 DQN 算法生成有效对抗决策。首先，建立了无人机一对一场景下的二人零和马尔可夫博弈模型，并据此设计了一对一场景的基本状态空间、动作空间和奖励函数。然后，针对高维状态输入，引入深度神经网络拟合状态动作值函数，通过设置经验回放技巧并利用损失函数更新网络参数，提高了算法的收敛性和稳定性。其次，针对单方优化问题，引入博弈决策的极大极小均衡来生成针对性机动策略。最后，设计了单机对抗仿真实验对比改进后算法的性能，结果表明改进 DQN 算法可以通过自学习的方式在强竞争环境下生成更准确、更有效针对对手的机动决策，满足对抗实时性的同时具有更高的决策水平。

毕业去向

中国银行，软件开发工程师