テキスト知識を超えて：視覚と言語のナビゲーションを強化するマルチモーダル知識ベース

arXiv cs.CV / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、未知の環境においてセマンティックな手がかりをより適切に捉え、視覚観測と整合させることを目的とした、視覚・言語ナビゲーションの枠組みBTK（Beyond Textual Knowledge）を提案する。
BTKは、環境固有のテキスト知識と、生成型画像知識ベースを組み合わせる。具体的には、Qwen3-4Bでゴール表現を抽出し、Flux-SchnellでR2R-GPおよびREVERIE-GPを構築し、BLIP-2でパノラマ視点に基づくテキスト知識ベースを作成する。
本手法は、Goal-Aware AugmentorとKnowledge Augmentorを通じて、複数のマルチモーダル知識ベースを統合し、セマンティックな基底付けとクロスモーダル整合を改善する。
R2R（7,189トラジェクトリ）およびREVERIE（21,702インストラクション）での実験では、BTKが未知テスト分割において既存のベースラインを上回る。SRの向上は+5%（R2R）および+2.07%（REVERIE）、SPLの向上は+4%（R2R）および+3.69%（REVERIE）である。
著者らは、リンクされたGitHubリポジトリにBTKのソースコードを提供しており、再現性の確保と、VLNにおけるマルチモーダル知識拡張に関するさらなる研究を支援している。

日経XTECH

Reddit r/MachineLearning

Dev.to

Dev.to

Dev.to