永続的かつ意味的に一貫した物体キャプションのためのメモリ増強ビジョン・ランゲージエージェント

arXiv cs.CV / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、身体化エージェントに対して、視点をまたいでも持続的かつ意味的に一貫した物体キャプションを生成することを目的とした、メモリ増強ビジョン・ランゲージエージェントを提案する。
  • データ対応付け、物体キャプション生成、探索ポリシーを、トークンとして直列化された物体レベルのエピソード記憶を用いる単一の自己回帰フレームワークで統合する。
  • 学習は、意見の不一致に基づく探索ポリシーと、擬似キャプション生成の手法により自己教師ありで行い、多視点のキャプション履歴間での一貫性を強制する。
  • 写真現実的な3D環境での実験では、ベースラインに比べてキャプション指標で最大+11.86%、キャプションの自己類似性で最大+7.39%の向上が示され、スケーラビリティのためにコンパクトなシーン表現も提案されている。
  • 著者らは、GitHubリポジトリを通じてコード、モデル重み、データを公開している。

要旨: 視覚言語モデル(VLM)は、視点が変わると同一の対象に対して一貫性のない記述を生成することが多く、その結果、身体性を備えたエージェントが時間を通じて一貫した意味表現を構築する能力が阻害されます。従来の手法では、不整合を、オフラインのマルチビュー集約や、探索・データ対応付け・キャプション学習を切り離すマルチステージのパイプラインによって解消していましたが、以前に観測された対象に対して推論する能力には限界がありました。本論文では、データ対応付け、対象のキャプション付け、探索方策を単一の自己回帰フレームワーク内で同時に扱う、統一されたメモリ拡張型のVision-Languageエージェントを提案します。このモデルは、現在のRGB観測、上方視点の探索マップ、そして対象レベルのエピソード記憶を対象レベルトークンとしてシリアライズしたものを処理し、長いシーケンスにわたって持続的な対象の同一性と意味的一貫性を保証します。自己教師ありの形でモデルを学習するために、意見不一致(disagreement)に基づく方策と、マルチビューのキャプション履歴間の一貫性を強制する疑似キャプションモデルを用いて、フォトリアリスティックな3D環境でデータセットを収集します。手動で注釈された対象レベルのテストセットに対する大規模な評価により、ベースラインモデルに比べて標準的なキャプションスコアで最大+11.86%、キャプションの自己類似性で+7.39%の改善が示されました。さらに、コンパクトなシーン表現によりスケーラブルな性能を可能にします。コード、モデル重み、データは https://github.com/hsp-iit/epos-vlm で利用できます

永続的かつ意味的に一貫した物体キャプションのためのメモリ増強ビジョン・ランゲージエージェント | AI Navigate