论文相关信息

本文内容取自[1]

研究背景与意义

在共享控制遥操作中,机器通过推断人类操作目标提供自主辅助(称为人类引导目标识别)。传统方法主要依赖算法置信度分配控制权,但存在以下问题:

  1. 高置信度下的纠错困难:当机器以高置信度做出错误推断时,人类难以介入修正;
  2. 静态能力评估不足:现有方法通常以二元方式(成功/失败)评估机器能力,忽略其动态波动。

信任作为“人类对机器能力的动态主观评估”,为解决上述问题提供了新思路。本文提出一种时间序列信任模型,综合考虑机器能力波动与人机交互经验,并将其融入控制权动态分配机制,旨在提升任务成功率与人机协作效率。


本文工作

1. 信任调制的动态控制权分配

  • 控制权分配公式
    \(\eta = \begin{cases} 0 & \text{if } \rho < \zeta_1 \\ \frac{T(\rho - \zeta_1)}{\zeta_2 - \zeta_1} & \text{if } \zeta_1 \leq \rho \leq \zeta_2 \\ T & \text{if } \rho > \zeta_2 \end{cases}\)
    其中,$\rho$为算法置信度,$T$为动态信任值,$\zeta_1=40\%$和$\zeta_2=80\%$为置信度阈值。
  • 实际应用:在Lunar Lander模拟器中,当机器置信度$\rho$超过$\zeta_2$时,控制权完全由信任值$T$决定,确保高信任下机器主导操作,同时保留人类在低信任区间($\rho < \zeta_1$)的完全控制权。

2. 人机动态信任模型

  • 信任定义
    \(T(k) = \alpha^* T(k-1) + \beta^* \Delta P(k) + \gamma E(k)\)
    • $\Delta P(k)$:基于目标推断误差$\delta_k$的机器能力波动(若$\delta_k$小于阈值$\varepsilon$,则$P(k)=1$,否则为0);
    • $E(k)$:带指数衰减遗忘机制的交互经验,仅保留最近$n=6$次交互数据,权重按$\lambda=0.95$衰减,突出近期表现;
    • $\alpha^, \beta^, \gamma$:通过最小二乘法个性化标定,反映不同用户对能力波动($\Delta P$)和长期可靠性($E$)的敏感度差异。
  • 动态权重调整
    • 当$\Delta P(k)>0$(能力提升),$\beta^*$较小,信任缓慢增长;
    • 当$\Delta P(k)<0$(能力下降),$\beta^*$增大,信任快速下降,强化人类对负面事件的敏感度。

3. 实验验证

  • 仿真平台:基于OpenAI Gym的Lunar Lander模拟器,替换随机目标点以适配任务需求;
  • 算法配置
    • 机器控制:DDQN算法(95%成功率)[2]
    • 目标推断:朴素贝叶斯网络[3]
  • 实验设计
    • 实验1(参数标定):100次试验,每次实验结束收集信任、机器能力等数据完成对模型参数的标定;
    • 实验2(模型验证):100次试验,验证信任动态分配机制的有效性。

实验结果

1. 信任模型有效性

  • 参数差异
    | 受试者 | $\alpha^+$ | $\beta^+$ | $\alpha^-$ | $\beta^-$ | $\gamma$ |
    |——–|————|———–|————|———–|———-|
    | H1 | 0.8637 | 0.0247 | 0.8480 | 0.0404 | 0.1116 |
    | H2 | 0.7346 | 0.0646 | 0.7280 | 0.0712 | 0.2008 |
    • H2对能力波动更敏感,H1更保守。
  • 信任动态
    • 高信任时突发的机器性能下降会导致信任大幅降低(因人类注意力减少);
    • 长期交互后,平均信任值稳定在0.8左右,与机器实际能力匹配。

      图1 信任模型有效性验证

2. 控制权分配效果

  • 任务成功率提升
    • 低信任区间($T<0.3$)成功率提升显著(人类主导修正错误);
    • 高信任区间需额外机制(如检测长期控制冲突)避免纠错延迟。

      图2 动态控制权分配有效性验证

总结

本文提出了一种融合动态信任模型的控制权分配方法,实验表明信任模型能有效跟踪机器能力波动,且基于信任模型的人机动态控制权分配能够提升任务成功率,体现了在人机混合智能系统中考虑信任这一因素的重要性和必要性。

参考文献

  1. [1]X. I. A. Ruiyu, Z. H. A. O. Yunbo, L. U. Junsen, W. A. N. G. Yang, L. I. Pengfei, and K. A. N. G. Yu, “Trust-Modulated Authority Allocation in Human-Guided Goal Recognition Tasks,” The 2nd International Conference on Artificial Intelligence and Human-Computer Interaction (ArtInHCI 2024), pp. 60–67, 2024.
  2. [2]S. Jain and B. Argall, “Recursive Bayesian Human Intent Recognition in Shared-Control Robotics,” in 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2018, pp. 3905–3912.
  3. [3]H. van Hasselt, A. Guez, and D. Silver, “Deep Reinforcement Learning with Double Q-Learning,” Proceedings of the AAAI Conference on Artificial Intelligence, vol. 30, no. 1, Mar. 2016.

相关科研项目

人机混合智能系统双层智能测试评估技术研究

人机自主性及其控制权切换策略研究