AI Navigate

ICPRL: 対話型制御から物理的直感を獲得する

arXiv cs.LG / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ICPRLはIn-Context Physical Reinforcement Learning(ICPRL)を導入します。これは、ビジョン-言語モデルが過去のインタラクティブな経験を条件付けとして活用し、重みの更新を必要とせずに物理的直感を獲得できるフレームワークです。
  • 本手法は、多様なマルチエピソード履歴に対して、マルチターンのグループ相対ポリシー最適化(GRPO)を用いて視覚に基づくポリシーを訓練し、別途訓練された世界モデルを用いて行動の結果を予測します。
  • 推論時には、ポリシーが候補となる行動を提案し、世界モデルが結果を予測してルートノードPUCT探索を導くことで、最も有望な行動を選択します。
  • DeepPHYベンチマークにおいて、ICPRLはポリシー単独設定と世界モデルを組み合わせた設定の両方で顕著な改善を達成し、未知の物理環境への転移を実証します。

概要: VLM(視覚言語モデル)は静的知覚に優れる一方、動的物理環境における対話的推論ではつまずきます。これは動的な結果への計画と適応を要求します。既存の物理推論手法は多くの場合、抽象的な記号入力に依存するか、未知の状況で直接的なピクセルベースの視覚インタラクションから学習・適応する能力を欠いています。私たちは ICPRL(In-Context Physical Reinforcement Learning、文脈内物理強化学習)を紹介します。これは In-Context Reinforcement Learning(ICRL)に触発されたフレームワークで、VLMに物理的直感を獲得させ、文脈内でポリシーを適応させます。私たちのアプローチは、多様な複数エピソードの相互作用履歴にわたり、複数ターンの Group Relative Policy Optimization(GRPO)を用いて、視覚的根拠を持つポリシーモデルを訓練します。これにより、エージェントは過去の試行錯誤のシーケンスに条件付けることで戦略を適応でき、重みの更新を一切必要としません。この適応ポリシーは、潜在的な行動の結果を予測して物理的推論を明示的に提供する、別個に訓練された世界モデルと協調して機能します。推論時には、ポリシーが候補となる行動を提案し、世界モデルが結果を予測して root-node PUCT 探索を導き、最も有望な行動を選択します。DeepPHY ベンチマークの多様な物理ベースのパズル解決タスクにおいて評価された ICPRL は、I. ポリシーのみの段階と II. 世界モデル強化段階の双方で有意な改善を示します。注目すべきことに、これらの利得は未知の物理環境でも維持され、我々のフレームワークが相互作用経験から環境の物理ダイナミクスを文脈内で真の意味で獲得することを示しています。