ベアリングのみの追跡に対する強化学習に基づくオブザーバ制御（ベアリング・ベース・トラッキング）

arXiv cs.AI / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、移動目標の自律的なベアリングのみ追跡に対して、観測（オブザーバ）制御の方策を深層強化学習で構築し、その問題を信念（belief）のマルコフ決定過程として定式化する。
信念状態は、キュビチュア・カルマンフィルタ（CKF）の事後分布で表現し、学習された制御と状態推定の不確実性を結び付ける。
報酬関数は、ユークリッド距離で表される推定誤差の最小化と、マハラノビス距離で測るCKF整合性（consistency）の維持という相反する2つの目的を両立させ、パレートフロント上で重みパラメータβ（0〜1）により幾何学的補間で設計する。
制御器は深層Qネットワーク（DQN）として50,000エピソードで学習し、5,000回のモンテカルロ評価を通じて、ベースライン2手法（ベアリングに直交するヒューリスティック、D-optimalフィッシャー情報最大化基準）と比較する。
β=0.7のとき、DQNは精度と頑健性の最良のトレードオフを示し、平均追跡精度では情報理論的ベースラインに匹敵しつつ、マハラノビス項による報酬設計の暗黙の整合性正則化によって最悪ケース誤差をほぼ10倍近く低減する。

要旨: 本論文は、移動目標の自律的な方位角（bearing）のみを用いた追跡に対する、深層強化学習に基づくオブザーバ制御方策を開発する。オブザーバの操縦問題は、信念（belie）を信念マルコフ決定過程として定式化する。ここで信念状態は、キュビチャ（cubature）カルマンフィルタ（CKF）の事後分布によって表現される。報酬関数は、2つの相反する目的、すなわち目標位置推定誤差（ユークリッド距離）の絶対値を最小化すること、ならびにCKFの推定整合性（マハラノビス距離）を維持すること、に対応するよう設計される。報酬は、パレートフロント上の2つの目的間における幾何学的内挿として定式化され、重み付け係数 $eta \in [0,1]$ によってパラメータ化される。方策は、50,000エピソードで訓練された深層Qネットワーク（DQN）として実装される。性能は5,000回のモンテカルロエピソードで評価され、2つのベースラインと比較される。すなわち、方位に対して垂直な（perpendicular-to-bearing）ヒューリスティック、およびD-optimalフィッシャー情報最大化基準である。結果は、 $eta = 0.7$ におけるDQN方策が、精度と頑健性の最良のトレードオフを達成することを示している。これは、平均追跡精度において情報理論的ベースラインと一致しつつ、報酬に含まれるマハラノビス項によって与えられる暗黙のフィルタ整合性正則化により、最悪時の誤差をほぼ10分の1にまで低減する。