身体化エージェントによるセマンティック・シーン・グラフ生成のための強化学習ベースのナビゲーションの近代化

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、行動予算が限られた状況でナビゲーションを行うことで、身体化エージェントがセマンティック・シーン・グラフ（SSG）を効率的に生成する方法を扱い、情報獲得とナビゲーションコストのバランスを取ることに焦点を当てている。
埋め込みSSG生成のためのモジュール型ナビゲーションコンポーネントを導入し、離散的な行動定式化の見直しとポリシー・アーキテクチャの選択（単一ヘッドのアトミック型 vs 行動構成要素に対する因数分解されたマルチヘッド型）によって意思決定を近代化する。
実験では、コンパクトなモーション集合とより細分化されたモーション集合を比較し、カリキュラム学習を評価する。さらに、安全性向上のために、深度に基づく衝突の監督（オプション）を追加する。
結果として、報酬整形を同一にしたまま最適化アルゴリズムのみを入れ替えると、ベースラインに対してSSGの完全性が21%向上することが示される。一方、深度監督は主に完全性ではなく実行時の安全性を改善する。
最良の性能は、近代的な最適化と、より細分化された因数分解型の行動表現を組み合わせることで達成され、最も強力な「完全性—効率」のトレードオフが得られる。

抄録: セマンティック・ワールドモデルは、身体性を備えたエージェントが、純粋に幾何学的な表現を超えて、対象物・関係・空間的文脈について推論できるようにします。オーガニック・コンピューティングにおいて、このようなモデルは、不確実性と資源制約のもとで、目的駆動型の自己適応を実現するための重要な実現要因です。主要な課題は、限られた行動予算内で、モデルの品質と下流での有用性を最大化する観測を獲得することです。
セマンティック・シーングラフ（SSG）は、この目的に適した、構造化されコンパクトな表現を提供します。しかし、有限の行動ホライゾン内でそれらを構築するには、情報獲得とナビゲーションコストのトレードオフを行い、追加の行動がどこで逓減する効果（限界利益）をもたらすのかを判断する探索戦略が必要です。
本研究では、身体性を備えたセマンティック・シーングラフ生成（Embodied Semantic Scene Graph Generation）のためのモジュール式ナビゲーション・コンポーネントを提示し、ポリシー最適化手法を置き換え、離散行動の定式化を見直すことで意思決定を近代化します。コンパクトで、よりきめ細かく、かつより大きな離散移動集合を検討し、原子（atomic）行動に対する単一ヘッドのポリシーと、行動成分に対する因数分解されたマルチヘッドのポリシーを比較します。カリキュラム学習と、任意の深度ベースの衝突監督を評価し、SSGの完全性、実行の安全性、ならびにナビゲーション挙動を評価します。
結果は、最適化アルゴリズムを置き換えるだけでも、同一の報酬成形（reward shaping）のもとで、ベースラインに比べてSSG完全性が21\%向上することを示しています。深度は主に実行の安全性（衝突のない運動）に影響し、完全性はほとんど変わりません。近代的な最適化と、よりきめ細かな因数分解された行動表現を組み合わせることで、最も強い全体的な完全性—効率性のトレードオフが得られます。