広告

テキスト知識を超えて:視覚と言語のナビゲーションを強化するマルチモーダル知識ベース

arXiv cs.CV / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、未知の環境においてセマンティックな手がかりをより適切に捉え、視覚観測と整合させることを目的とした、視覚・言語ナビゲーションの枠組みBTK(Beyond Textual Knowledge)を提案する。
  • BTKは、環境固有のテキスト知識と、生成型画像知識ベースを組み合わせる。具体的には、Qwen3-4Bでゴール表現を抽出し、Flux-SchnellでR2R-GPおよびREVERIE-GPを構築し、BLIP-2でパノラマ視点に基づくテキスト知識ベースを作成する。
  • 本手法は、Goal-Aware AugmentorとKnowledge Augmentorを通じて、複数のマルチモーダル知識ベースを統合し、セマンティックな基底付けとクロスモーダル整合を改善する。
  • R2R(7,189トラジェクトリ)およびREVERIE(21,702インストラクション)での実験では、BTKが未知テスト分割において既存のベースラインを上回る。SRの向上は+5%(R2R)および+2.07%(REVERIE)、SPLの向上は+4%(R2R)および+3.69%(REVERIE)である。
  • 著者らは、リンクされたGitHubリポジトリにBTKのソースコードを提供しており、再現性の確保と、VLNにおけるマルチモーダル知識拡張に関するさらなる研究を支援している。

広告