DecoVLN: 観測・推論・訂正の分離による視覚と言語のナビゲーション

arXiv cs.RO / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • DecoVLN は、意味的関連性、視覚的多様性、時間的カバレッジをバランスさせる統一スコアリング関数を反復的に最適化することで、履歴プールからフレームを選択する適応的なメモリ洗練機構を導入します。
  • 状態-行動ペアレベルの補正微調整戦略を追加し、専門家の軌道からの逸脱を測る指標として測地距離を用いることで、信頼できる領域での選択的かつ高品質なデータ収集を可能にし、関連性の低いサンプルをフィルタリングします。
  • 本アプローチは、長期的な視覚・言語ナビゲーションにおける累積誤差の低減と、ストリーミング知覚および閉ループ制御の効率と安定性の向上を狙い、広範な実験と実世界での展開を実施しています。
  • 長期的なメモリ構築と誤り訂正に取り組むことで、VLN 研究を前進させ、将来のメモリベースの実世界ナビゲーションシステムに影響を与える可能性があります。

概要: Vision-and-Language Navigation (VLN) は、エージェントが長期的な指示に従い、複雑な3D環境をナビゲートすることを要求します。しかし、既存のアプローチは二つの大きな課題に直面しています:効果的な長期メモリバンクの構築と累積誤差の問題を克服すること。これらの問題に対処するため、長期的ナビゲーションにおける堅牢なストリーミング知覚と閉ループ制御のために設計された効果的なフレームワーク DecoVLN を提案します。まず、長期メモリ構築を最適化問題として定式化し、統一スコアリング関数を反復的に最適化することによって歴史的候補プールからフレームを選択する適応的リファインメント機構を導入します。この関数は、指示への意味的関連性、選択されたメモリの視覚的多様性、および歴史的軌跡の時間的カバレッジという三つの主要基準を共同でバランスさせます。次に、累積誤差を緩和するため、状態-行動ペアレベルの補正ファインチューニング戦略を導入します。状態間の測地距離を活用して、専門家の軌跡からの逸脱を正確に定量化することにより、エージェントは信頼領域内で高品質な状態-行動ペアを収集し、関連性が低い汚染データをフィルタリングします。これにより、誤差補正の効率と安定性の両方が向上します。広範な実験により DecoVLN の有効性が示され、実世界の環境での展開も行っています。