概要: 本論文は、知識グラフに基づく、Massively Multi-task Model-based Policy Optimization(KG-M3PO)を導入する。KG-M3POは、知覚・知識・方策を統一する、部分観測設定におけるマルチタスクなロボット操作のための枠組みである。この手法は、自己中心視(egocentric vision)に対し、オンラインの3Dシーングラフを拡張して追加し、オープンボキャブラリの検出をメトリックな関係表現へと根付ける。動的関係メカニズムにより、各ステップで空間・包含・アフォーダンスのエッジを更新し、グラフニューラルエンコーダをRL目的関数を通じてエンドツーエンドで学習することで、関係特徴が制御性能によって直接形成される。複数の観測モダリティ(視覚、固有感覚、言語、グラフベース)を共有潜在空間にエンコードし、その上でRLエージェントが制御ループを駆動する。方策は、視覚および固有感覚入力に加えて軽量なグラフ問い合わせに条件付けられ、意思決定のためのコンパクトで意味論的に情報化された状態が得られる。
障害物による遮蔽、気を散らす要素、レイアウトの変化を伴う一連の操作タスクに関する実験では、強力なベースラインに対して一貫した改善が示される。知識によって条件付けられたエージェントは、より高い成功率、改善されたサンプル効率、および未知の物体や未見のシーン構成へのより強い汎化を達成する。これらの結果は、構造化され、継続的に維持される世界知識が、スケーラブルで汎化可能な操作にとって強力な帰納的バイアスであるという前提を支持する。知識モジュールがRLの計算グラフに参加することで、関係表現が制御に整合し、部分観測下でも堅牢な長期的挙動が可能になる。
マルチタスク強化学習による知識ガイド型操作の手法
arXiv cs.RO / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、部分観測下におけるロボット操作のための、知識グラフに基づくマルチタスク・モデルベース方策最適化フレームワーク KG-M3PO を提案する。
- 自己視点(エゴセントリック)映像に、オンラインの 3D シーングラフを拡張し、開放語彙検出を計量的な関係表現へと位置付け(グラウンディング)する。この表現は各ステップごとに動的に更新される。
- グラフニューラルエンコーダは強化学習の目的に対してエンドツーエンドで学習され、操作制御の性能に直接応じて関係特徴が形成される。
- 本アプローチは、視覚・固有感覚・言語・グラフに基づく複数のモダリティを共有潜在空間へ融合し、軽量なグラフ問い合わせにより、コンパクトで意味的に情報を持つ方策条件付けを行う。
- 障害物による遮蔽、注意をそらす要素(ディストラクタ)、レイアウトの変化を伴う操作ベンチマークでの実験では、強力なベースラインと比べて成功率の向上、サンプル効率の改善、より強い汎化性能が示される。