視覚と言語ナビゲーションにおける自己改善エージェントのための「バランス」の本質

arXiv cs.CV / 2026/4/22

📰 ニュースModels & Research

要点

  • 視覚と言語ナビゲーション(VLN)では、方策による経験からの自己改善が可能ですが、信頼できる学習信号を得るためには「行動の多様性」と「学習の安定性」のバランスが決定的に重要です。
  • 行動の多様性を増やすだけでは学習信号が不安定になり得る一方、安定性を過度に厳しくすると探索が抑制され早期に方針が固定されてしまい、自己改善が難しくなります。
  • 本論文では、Stability-Diversity Balance(SDB)という、VLNに対するプラグアンドプレイの自己改善手法を提案します。
  • SDBは各意思決定ステップを複数の潜在的な行動仮説に拡張し、指示に条件付けされた隠れ状態へ制御されたシフトを適用することで、指示整合性を保ちつつ多様な代替案を学習中に保持します。
  • さらに、仮説間の相互作用を明示的に制約する正則化により過度なドリフトや多様性の早期崩壊を防ぎ、学習信号を捨てずに自己改善の安定化を図れます。R2R、SOON、REVERIEで一貫した改善が示され、REVERIEのval-unseenではSPLが33.73から35.93、OSRが51.07から54.25に向上しました。

Abstract

視覚と言語のナビゲーション(VLN)において、方策に起因する経験からの自己改善は、標準的なVLNの行動スーパービジョンのみを用いる場合、行動の多様性と学習の安定性のバランスを適切に取ることに本質的に依存します。これは、改善のためにエージェントが信頼できる学習信号を抽出できるかどうかを左右します。行動の多様性を高めることは、代替となる行動仮説を提示するために必要ですが、方策に起因する学習信号を不安定化させうる一方で、過度に保守的な安定性制約は探索を抑制し、早期のコミットメントを誘発し、その結果、信頼できる自己改善が困難になります。この課題に対処するために、VLNにおけるバランスの取れた自己改善のためのプラグアンドプレイ機構であるStability-Diversity Balance(SDB)を提案します。SDBは、指示条件付きの隠れ状態に対して制御されたシフトを適用することで、各意思決定ステップを複数の潜在的な行動仮説へと拡張し、その後、信頼性を考慮したソフトな評価と集約を行うことで、学習中に多様性を保ちつつ指示と整合的な代替案を保持します。さらに明示的な正則化項により仮説間の相互作用が制約され、過度なドリフトや、仮説の多様性の早期崩壊を防ぎます。これにより、学習信号を捨てることなく自己改善を安定化させます。R2R、SOON、REVERIEでの実験により一貫した改善が示されています。たとえば、REVERIEのval-unseenにおいて、SDBはSPLを33.73から35.93へ、OSRを51.07から54.25へ改善します。