検出は容易だが適応は難しい:分布シフト下の視覚モデルベース強化学習におけるローカル・エキスパート成長
arXiv cs.LG / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、分布シフトに対処するための視覚モデルベース強化学習(MBRL)手法を検討し、シフトの検出自体は比較的容易だが、認識後の行動レベルでの補正が難しいと指摘する。
- 計画ペナルティ、直接の微調整、グローバルな残差補正、粗いゲーティングといった複数の応答戦略は、クローズドループ制御を改善できず、あるいは学習時分布(ID)での性能を損なう。
- そこで著者らは「JEPA-Indexed Local Expert Growth」を提案し、元のコントローラを変更せず、固定化したJEPA表現を問題のインデックス付けにのみ用いて、クラスター別の残差エキスパートを上乗せして局所的な行動補正を行う。
- ペア・ブートストラップ評価では、「ハーダーペア」変種が4つのシフト条件すべてで統計的に有意なOOD改善を示しつつID性能も維持され、同じシフトを再度受けた場合でも学習済みエキスパートが有効であることが示される。
- また、自動ID拒否は単純な密度モデルで実現できる一方、OODサブファミリー間のきめ細かな識別は表現に起因する限界があることを明らかにする。




