要旨:
アクションが観測されない場合、潜在的なアクションと環境ダイナミクスはオフラインの軌跡から回復できるだろうか?
アクションが観測されない軌跡だが、デモンストレーターの識別子でタグ付けされているという設定でこの問いを検討します。
各デモンストレーターは異なるポリシーに従い、環境ダイナミクスはデモンストレーター間で共有され、識別子が次の観測に影響を与えるのは、選択されたアクションを介してのみであると仮定します。
この仮定の下で、条件付きの次の観測分布 p(o_{t+1}\mid o_t,e) は、デモンストレーターごとの混合重みを伴う潜在的なアクション条件付き遷移カーネルの混合として表現されます。
これにより、各状態について、観測可能な条件付き分布の列和が1となる非負の行列因子分解が誘導されることを示します。
十分に散らばったポリシーの多様性とランク条件を用いて、潜在遷移とデモンストレーターのポリシーが、潜在アクションラベルの置換まで識別可能であることを証明します。
この結果を Gram 行列式最小体積基準を介して連続観測空間へ拡張し、連結した状態空間上で遷移写像の連続性を示し、局所的な置換の曖昧さを単一のグローバルな置換へと拡張します。
この最終的な曖昧さを解消するには、少量のラベル付きアクションデータで十分です。
これらの結果は、デモンストレーターの多様性を、オフラインRLデータから潜在的なアクションとダイナミクスを学ぶ際の原理的な識別可能性の源として確立します。
デモンストレーターの多様性を用いたオフラインデータからの潜在アクションとダイナミクスの同定
arXiv cs.LG / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- アクションが観測されないオフライン軌跡から潜在アクションと環境ダイナミクスを回復できるかを、デモンストレーターの同一性をタグ信号として用いることで検討する。
- 条件付き次観測分布 p(o_{t+1} | o_t, e) は、潜在アクション条件付き遷移核のデモンストレーター特有の混合重みを用いた混合分布であることを示している。
- 十分に多様なデモンストレーター方針とランク条件が満たされると、潜在遷移とデモンストレーター方針は潜在アクションラベルの置換まで識別可能となり、連続観測にもグラム行列式最小体積基準により拡張される。状態空間が連結であればグローバルな置換が保証される。
- 少量のラベル付きアクションデータが最終的な置換曖昧性を解消でき、オフライン強化学習データから潜在アクションとダイナミクスを学ぶ際の、デモンストレーター多様性を原理的な識別可能性の源として位置づける。
