アクティブなマルチターゲット追跡のためのベイズ的エキスパート選択を伴う拡散ポリシー

arXiv cs.RO / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、拡散ポリシーによる行動生成と、複数のエキスパート戦略を不確実性を意識して選択する仕組みを組み合わせることで、移動ロボットによるアクティブなマルチターゲット追跡を扱う。
エキスパート選択をオフラインの文脈付きバンディット問題として定式化し、ロボットの現在の信念状態（belief state）から各エキスパートの期待される追跡性能を推定するベイズ的枠組みを導入する。
マルチヘッドの変分ベイズ最終層（VBLL）モデルにより、各候補戦略の性能についての点推定と予測不確実性の両方を提供する。
オフラインの「悲観（pessimism）」原理を用い、最も良い最悪ケースの予測性能となるエキスパートを選ぶために、下側信頼限界（LCB）基準を適用する。これにより、信頼できない戦略推定に基づいて行動するリスクを低減する。
シミュレーション環境での屋内マルチターゲット追跡実験では、基礎となる拡散ポリシーやMixture-of-Expertsのような標準的なエキスパート・ゲーティング手法に比べて性能が向上することを示す。

Abstract

アクティブなマルチターゲット追跡では、モバイルロボットが未検出のターゲットに対する探索と、不確実性を伴いながら追跡されているターゲットの活用（エクスプロイト）のバランスを取る必要がある。拡散ポリシーは、エキスパートのデモンストレーションから行動系列を学習することで、多様な行動戦略を捉えるための強力なアプローチとして登場してきた。しかし既存手法では、どの戦略を実行するかについての不確実性の定量化を行わず、除去（denoising）の過程を暗黙に通じて戦略を選択してしまう。そこで本研究では、拡散ポリシーにおけるエキスパート選択をオフラインの文脈付きバンディット問題として定式化し、悲観的で不確実性を考慮した戦略選択のためのベイズ的枠組みを提案する。マルチヘッドの変分ベイズ最終層（Variational Bayesian Last Layer: VBLL）モデルは、現在の信念状態（belief state）に基づいて各エキスパート戦略の期待追跡性能を予測し、点推定と予測不確実性の両方を与える。オフライン意思決定における悲観主義の原理に従い、Lower Confidence Bound（LCB）基準は、最悪ケースでの予測性能が最も良いエキスパートを選択することで、信頼できない予測を行うエキスパートへの過度なコミットメントを避ける。選択されたエキスパートが、対応する行動系列を生成するように拡散ポリシーを条件付ける。シミュレーションされた屋内追跡シナリオでの実験により、本手法は基礎となる拡散ポリシーおよび標準的なガーティング手法（Mixture-of-Experts による選択や決定論的回帰ベースラインを含む）の両方を上回ることを示す。