ロボットはいつ考えるべきか？身体性を備えたロボットの意思決定のための強化学習による資源を意識した推論

arXiv cs.RO / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLM-style 推論を用いる身体性ロボットエージェントにとっての中核的な問題を扱う。推論は意思決定を改善できる一方で、レイテンシや資源オーバーヘッドを増やし、信頼性やタスク達成を損なう可能性がある。
RARRL（Resource-Aware Reasoning via Reinforcement Learning）を提案する。これは階層型の枠組みで、高レベルのオーケストレーション方策を学習し、いつ推論を呼び出すか、どの推論モジュールを使うか、そしてどれだけの計算予算を割り当てるかを決定する。
オーケストレーション方策は、固定スケジュールや手作りのヒューリスティックに依存するのではなく、現在の観測、実行履歴、残りの資源に応じて適応する。
ALFRED ベンチマークから導かれた実測レイテンシプロファイルを用いた実験により、RARRL はベースラインの推論戦略と比較して、タスク成功率を向上させると同時に、実行レイテンシを削減し、頑健性を高めることが示される。

Abstract

身体性のあるロボットシステムは、環境との相互作用中に高レベルの推論、計画、意思決定を支えるため、大規模言語モデル（LLM）ベースのアーキテクト（エージェント）にますます依存するようになってきています。しかし、LLMの推論を呼び出すことは、計算遅延とリソースのオーバーヘッドが大きくなるため、行動の実行を中断させ、システムの信頼性を低下させ得ます。過剰な推論は行動を遅らせ、一方で不十分な推論はしばしば誤った意思決定やタスク失敗につながります。これは、身体性のあるエージェントにとって根本的な問いを提起します。すなわち、エージェントはいつ推論すべきで、いつ行動すべきなのでしょうか。本研究では、身体性のあるエージェントをリソースに応じてオーケストレーションするための階層的枠組みであるRARRL（Reinforcement LearningによるResource-Aware Reasoning）を提案します。低レベルの制御ポリシーを学習するのではなく、RARRLはエージェントの意思決定層で動作する高レベルのオーケストレーションポリシーを学習します。このポリシーにより、エージェントは、推論を呼び出すかどうか、どの推論ロールを用いるか、そして現在の観測、実行履歴、残存リソースに基づいて計算予算をどれだけ割り当てるかを、適応的に決定できるようになります。ALFREDベンチマークから導出した経験的なレイテンシプロファイルによる評価を含む大規模な実験の結果、RARRLは、固定的またはヒューリスティックな推論戦略と比べて、タスク成功率を一貫して向上させるとともに、実行遅延を低減し、頑健性も高めることが示されました。これらの結果は、適応的な推論制御が、信頼性が高く効率的な身体性のあるロボットエージェントを構築するために不可欠であることを示しています。