状態整合性を超えて:テキストベース世界モデルにおける行動整合性
arXiv cs.LG / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Exact Matchなどの単一ステップの状態類似度指標で評価されるテキストベースの世界モデルでは、行動を計画・評価した際にエージェントの振る舞いが実際に一貫して保たれるかどうかを捉えられないと主張する。
- そこで、Behavior Consistency Reward(BehR)というステップ単位の指標に基づく、行動整合に沿った学習パラダイムを提案する。これは、凍結したReference Agentを用いて、実際の状態と世界モデルが予測した状態の間でログに記録された次の行動の起こりやすさがどれだけ変化するかを定量化する。
- WebShopおよびTextWorldでの実験により、BehRに基づく学習が長期的な整合性を改善することが示される。特に強い改善はWebShopで見られ、天井付近の性能領域では変化がより限定的である。
- 本手法は、多くの設定において単一ステップの予測品質を概ね維持または改善しつつ、オフラインの代理評価における偽陽性を低減する。
- 結果は、BehRで学習した世界モデルを用いた推論時の先読み(lookahead)計画に対して、控えめながらも有望な改善が得られることを示している。




