疲労予測に基づく人-ロボット作業計画・割当のためのオンライン・フィルタリングによる安全な強化学習(Safe reinforcement learning with online filtering for fatigue-predictive human-robot task planning and allocation in production)

arXiv cs.AI / 2026/4/15

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、生産における人-ロボット作業計画・割当を扱い、作業者の身体的疲労を考慮して、タスク割当が安全な範囲内に収まるようにしつつ、動的な生産条件下で効率を最適化することを目的とする。
  • 一般に用いられるHRTPA(human-robot task planning and allocation)の疲労回復モデルは静的なハイパーパラメータに依存しているとし、代わりに疲労関連パラメータを不確実なものとしてモデル化し、観測された疲労の進行からオンライン推定することを提案する。
  • 提案手法PF-CD3Qは、粒子フィルタに基づくオンライン疲労推定と、安全な強化学習を組み合わせ、リアルタイムの意思決定を可能にするために、制約付きダイエリング・ダブル深層Q学習(constrained dueling double deep Q-learning)を用いる。
  • 計画時には、システムが各作業ごとの疲労を予測し、疲労しきい値を超えると見込まれる行動をフィルタリングすることで、HRTPAを制約付きマルコフ決定過程として扱い、安全性を担保する。
  • 本研究はIndustry 5.0/エルゴノミクスの文脈に位置づけられ、日々の人間の疲労感受性の変動に対して、協働型製造をより頑健にすることを目指している。

Abstract

人とロボットの協働による製造は、Industry 5.0の中核的な側面であり、作業者の健康・安心(ウェルビーイング)を高めるために人間工学を重視します。本論文では、人とロボットの協働タスク計画・割当(HRTPA)問題、すなわち「いつタスクを実行すべきか」「誰が実行すべきか」を決定して効率を最大化しつつ、作業者の身体的疲労が安全な範囲内に収まるようにする問題に取り組みます。疲労制約を、生産ダイナミクスと組み合わせることで、HRTPA問題の複雑さは大幅に増大します。HRTPAにおける従来の疲労回復モデルは、しばしば静的で事前に定められたハイパーパラメータに依存します。しかし実際には、作業条件の変更や睡眠不足などの要因により、人間の疲労感受性は日々変化します。この不確実性をより適切に捉えるため、疲労に関するパラメータを不正確なものとして扱い、生産中に観測される疲労の進行に基づいてオンラインで推定します。これらの課題に対処するため、本論文では、安全強化学習(safe RL)のアプローチであるPF-CD3Qを提案します。PF-CD3Qは、パーティクルフィルタを、制約付きデュエリング・ダブル深層Q学習と統合することで、リアルタイムの疲労予測型HRTPAを実現します。具体的には、まずPFベースの推定器を開発して人間の疲労を追跡し、疲労モデルのパラメータをリアルタイムに更新します。次に、これらの推定器をCD3Qに統合し、意思決定の際にタスク単位で疲労予測を行い、疲労限界を超えるタスクを除外することで、行動空間を制約し、問題を制約付きマルコフ決定過程(CMDP)として定式化します。