広告

Fatigue-Aware Learning to Defer via Constrained Optimisation

arXiv cs.LG / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、静的な専門家の正確さを仮定するのではなく、作業負荷に依存して人間のパフォーマンスが低下することを考慮した、疲労を意識する学習にもとづく「延期(Learning to Defer: L2D)」手法FALCONを提案する。
  • FALCONは、タスク特徴に加えて累積的な人間の作業負荷を含む状態を用いてL2Dを制約付きマルコフ決定過程(CMDP)として定式化し、協調・カバレッジの予算を制約として精度を最適化するために、PPO-Lagrangianによる学習を行う。
  • 著者らは、疲労ダイナミクスをほぼ静的なものから急速に低下するものまで変化させるベンチマークFA-L2Dを提案し、異なる人間の疲労パターンのもとでの頑健性を検証する。
  • 複数のデータセットでの実験により、FALCONはカバレッジの異なる条件でも既存のL2D手法より改善し、疲労行動が異なる未見の専門家に対してもゼロショットで汎化できることが示される。また、カバレッジが0から1の範囲にあるとき、人間とAIの協調はAIのみ、または人間のみよりも適応的に優れることが分かる。

Abstract

学習における委譲(L2D)は、人間とAIの協調を可能にし、いつAIシステムが自律的に行動すべきか、あるいは人間の専門家に委譲すべきかを決定します。しかし既存のL2D手法は静的な人間のパフォーマンスを前提としており、疲労による劣化に関する確立した知見と矛盾します。本研究では、心理学に基づく疲労曲線により、作業負荷が変動する人間のパフォーマンスを明示的にモデル化する、制約付き最適化による疲労を考慮した委譲学習(Fatigue-Aware Learning to Defer via Constrained Optimisation, FALCON)を提案します。FALCONは、状態にタスクの特徴と累積する人間の作業負荷の両方を含む制約付きマルコフ決定過程(CMDP)としてL2Dを定式化し、PPO-Lagrangianによる学習を通じて、人間とAIの協調における予算の範囲内で精度を最適化します。さらに、近似的に静的な状態から急速に劣化する領域まで、疲労ダイナミクスを体系的に変化させるベンチマークFA-L2Dを導入します。複数のデータセットにまたがる実験の結果、FALCONはカバレッジの水準全てにおいて最先端のL2D手法を一貫して上回り、異なる疲労パターンを持つ未見の専門家に対するゼロショット一般化を示し、また、カバレッジが厳密に0と1の間にある場合には、AIのみ、または人間のみの意思決定と比較して適応的な人間-AI協調の優位性を示すことが分かりました。

広告
Fatigue-Aware Learning to Defer via Constrained Optimisation | AI Navigate