視覚と言語ナビゲーションにおける自己改善エージェントのための「バランス」の本質
arXiv cs.CV / 2026/4/22
📰 ニュースModels & Research
要点
- 視覚と言語ナビゲーション(VLN)では、方策による経験からの自己改善が可能ですが、信頼できる学習信号を得るためには「行動の多様性」と「学習の安定性」のバランスが決定的に重要です。
- 行動の多様性を増やすだけでは学習信号が不安定になり得る一方、安定性を過度に厳しくすると探索が抑制され早期に方針が固定されてしまい、自己改善が難しくなります。
- 本論文では、Stability-Diversity Balance(SDB)という、VLNに対するプラグアンドプレイの自己改善手法を提案します。
- SDBは各意思決定ステップを複数の潜在的な行動仮説に拡張し、指示に条件付けされた隠れ状態へ制御されたシフトを適用することで、指示整合性を保ちつつ多様な代替案を学習中に保持します。
- さらに、仮説間の相互作用を明示的に制約する正則化により過度なドリフトや多様性の早期崩壊を防ぎ、学習信号を捨てずに自己改善の安定化を図れます。R2R、SOON、REVERIEで一貫した改善が示され、REVERIEのval-unseenではSPLが33.73から35.93、OSRが51.07から54.25に向上しました。


