强化学习驱动机器下的人机控制方法研究
研究背景与意义
AI驱动的人机控制是新一代智能系统的核心研究方向之一。首先,从人工智能对人类决策的贡献角度来看,AI能够通过处理大量数据并提供实时分析,提升人类控制的效率和准确性。其次,从人类在AI控制中的作用来看,人类的直觉和经验对于引导AI系统在缺乏上下文或理解的情况下尤其重要。AI的计算能力与人类的专业知识相结合,创造了一个强有力的框架,能够提升控制系统的可靠性、适应性和有效性。因此,开展AI驱动的人机控制研究具有重要意义,因为它为优化决策过程和提升系统性能开辟了新的可能性。
另一方面,作为人工智能的关键技术之一,强化学习(RL)驱动机器下的人机控制逐渐成为近年来一个新兴的研究领域。RL驱动的机器控制具有“自学习”和“自适应”的特点,它能够使机器在动态和不确定环境中通过试错自主学习最优行为策略,从而增强人机系统的适应性和性能。因此,RL驱动机器下的人机控制能够在高度不确定和复杂的任务中发挥重要作用,尤其适用于那些环境变化快、决策空间大且难以完全预设的领域。
RL驱动机器下的人机控制有两类基本控制方法:共享控制和介入控制,分别用于系统性能的优化和安全性约束[1]。其基本框架如图1所示。共享控制模式下,人类和机器在感知-行动环路中以平等合作的方式实现共同的目标,重点在于系统性能的优化[2]。这种方式特别适用于任务明确且环境相对稳定的场景,像是自动驾驶系统中的车辆控制或基于遥操作的微创外科手术等。在介入控制模式下,人类和机器通过一方对另一方的干预来完成感知-行动环路,主要目标是避免人机系统发生不可接受的后果,强调系统的稳定性和安全性[3]。介入控制通常用于那些对安全性要求高、环境变化不可预测或任务复杂度较高的场景。每种控制模式都有其独特的优势和适用场景,选择哪种策略取决于任务的需求、环境的复杂性以及对安全性、效率等因素的要求。
图1a 共享控制框架 |
图1b 介入控制框架 |
目前,人机控制理论和方法大多针对特定场景提出策略,缺乏通用性,限制了其应用推广。我们通过研究RL模型的属性和人类决策过程中所表现出的特性,主要关注两个关键问题:共享控制中的决策权分配和介入控制中的介入时机确定。
研究现状
RL驱动机器下的人机控制研究,近年来在机器人技术、自动驾驶、智能制造等领域得到了广泛关注。研究主要集中在如何有效地在决策层面实现人机协同,以提升系统的性能和安全性约束。现有研究成果可从共享控制和介入控制两个角度进行分析。
在基于共享控制的人机控制研究中,关键挑战是决策权的分配,它包括如何平衡机器的智能控制和人类的控制能力,以及如何通过良好的人机融合使得系统安全高效的运行。为解决这一问题,[4]提出了一种基于博弈理论和驾驶安全领域的动态权限分配策略,通过非合作博弈理论建模人类驾驶员与智能控制器之间的互动并评估驾驶风险,控制权限可以自适应地进行调整。[5]提出了一种基于参考权限水平的自适应权限分配模型,采用了模型预测控制(MPC)方法。其他文献通过实验数据的特征分类[6]和建立分层高斯风险场[7]实现了权限分配。然而上述方法对实验场景高度敏感,需要大量的参数调整工作,且无法从理论上保证系统性能的提升。并且,在决策过程中受自身认知和推理能力的限制,人类可能存在认知偏差,现有方法并为考虑认知偏差的存在如何影响人机决策权分配。
在基于介入控制的人机控制研究中,关键挑战在于如何明确干预时机和方式,以保证系统的稳定性与安全性。为解决这一问题,研究者们提出了几种创新的方法。例如,Arakawa等人提出的DQN-TAMER[8]方法,通过任务执行过程中的实时人类反馈,将人类观察者模型融入到学习过程中。Expected Local Improvement(ELI)[9]则训练一个状态选择器,指导智能体在特定状态下请求人类专家的干预。PAINT[10]方法通过学习分类器识别不可逆状态,并在不可避免地进入这些状态时主动请求专家的帮助。此外,Hug-DRL[11]方法通过控制转移机制,在人类与自动化之间实现协同干预,有效纠正代理在训练过程中的不合理行为,并在自动驾驶等应用中展现了显著的潜力。尽管上述方法在提升智能体决策性能和安全性方面展现了显著潜力,但很多方法依赖于明确的状态选择器或分类器来确定何时介入,这需要大量的先验知识和精确的任务建模,且在复杂环境下可能无法准确捕捉到所有关键状态。
展望
总的来说,越来越多的研究关注如何设计H-RLEI的控制策略,使其能够在实际应用中充分发挥人机协同的优势。为了实现控制策略的优化并有效融合人机决策,未来的研究或许可以从以下几个方面进一步深入:
- 基于优化的权限分配:研究如何根据任务需求和环境变化,动态优化人类与机器之间的决策权分配,以提高系统的性能。
- 基于置信度评估的权限分配:研究如何根据人类与机器的决策置信度动态调整决策权分配,以提高系统决策的准确性和稳定性,优化整体协作效果。
- 基于不确定性感知的介入触发:研究如何通过实时感知系统中的不确定性因素,精确判断何时触发人类介入,以减少系统风险并提高介入决策的及时性与有效性。
- 基于提前预警的介入触发:研究如何通过提前识别潜在风险并发出预警,以便及时触发人类介入,从而有效避免人类情景意识低下带来的决策不稳定。
参考文献
- [1]A. Xie, F. Tajwar, A. Sharma, and C. Finn, “When to ask for help: Proactive interventions in autonomous reinforcement learning,” Advances in Neural Information Processing Systems, vol. 35, pp. 16918–16930, 2022.
- [2]X. Li, Y. Wang, C. Su, X. Gong, J. Huang, and D. Yang, “Adaptive authority allocation approach for shared steering control system,” IEEE Transactions on Intelligent Transportation Systems, vol. 23, no. 10, pp. 19428–19439, 2022.
- [3]W. Huang, Y. Zhou, J. Li, and C. Lv, “Potential hazard-aware adaptive shared control for human-robot cooperative driving in unstructured environment,” in 2022 17th International Conference on Control, Automation, Robotics and Vision (ICARCV), 2022, pp. 405–410.
- [4]Q. Zhang, Y. Kang, Y.-B. Zhao, P. Li, and S. You, “Traded control of human-machine systems for sequential decision-making based on reinforcement learning,” IEEE Transactions on Artificial Intelligence, vol. 3, no. 4, pp. 553–566, 2021.
- [5]J. Wu et al., “Human-in-the-Loop Deep Reinforcement Learning with Application to Autonomous Driving.” arXiv, Apr-2021.
- [6]Y. Wu, H. Wei, X. Chen, J. Xu, and S. Rahul, “Adaptive authority allocation of human-automation shared control for autonomous vehicle,” International Journal of Automotive Technology, vol. 21, no. 3, pp. 541–553, 2020.
- [7]F. Flemisch, D. A. Abbink, M. Itoh, M.-P. Pacaux-Lemoine, and G. Weßel, “Joining the blunt and the pointy end of the spear: towards a common framework of joint action, human–machine cooperation, cooperative guidance and control, shared, traded and supervisory control,” Cognition, Technology & Work, vol. 21, no. 4, pp. 555–568, Nov. 2019.
- [10]R. Arakawa, S. Kobayashi, Y. Unno, Y. Tsuboi, and S.-ichi Maeda, “DQN-TAMER: Human-in-the-Loop Reinforcement Learning with Intractable Feedback.” arXiv, Oct-2018.
- [11]T. Mandel, Y.-E. Liu, E. Brunskill, and Z. Popović, “Where to add actions in human-in-the-loop reinforcement learning,” in Proceedings of the AAAI Conference on Artificial Intelligence, 2017, vol. 31.