疲労予測に基づく人-ロボット作業計画・割当のためのオンライン・フィルタリングによる安全な強化学習(Safe reinforcement learning with online filtering for fatigue-predictive human-robot task planning and allocation in production)
arXiv cs.AI / 2026/4/15
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、生産における人-ロボット作業計画・割当を扱い、作業者の身体的疲労を考慮して、タスク割当が安全な範囲内に収まるようにしつつ、動的な生産条件下で効率を最適化することを目的とする。
- 一般に用いられるHRTPA(human-robot task planning and allocation)の疲労回復モデルは静的なハイパーパラメータに依存しているとし、代わりに疲労関連パラメータを不確実なものとしてモデル化し、観測された疲労の進行からオンライン推定することを提案する。
- 提案手法PF-CD3Qは、粒子フィルタに基づくオンライン疲労推定と、安全な強化学習を組み合わせ、リアルタイムの意思決定を可能にするために、制約付きダイエリング・ダブル深層Q学習(constrained dueling double deep Q-learning)を用いる。
- 計画時には、システムが各作業ごとの疲労を予測し、疲労しきい値を超えると見込まれる行動をフィルタリングすることで、HRTPAを制約付きマルコフ決定過程として扱い、安全性を担保する。
- 本研究はIndustry 5.0/エルゴノミクスの文脈に位置づけられ、日々の人間の疲労感受性の変動に対して、協働型製造をより頑健にすることを目指している。



