DUALVISION:RGB-赤外マルチモーダル大規模言語モデルによる頑健な視覚推論

arXiv cs.CV / 2026/4/22

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • この論文では、赤外(IR)とRGBの情報をマルチモーダル大規模言語モデル(MLLM)に統合して、より頑健な視覚推論を実現するDUALVISIONが提案されています。
  • DUALVISIONはパッチ単位の局所的クロスアテンションを用いてIR-RGBの手がかりを効率よく統合し、霧・ぼけ・低照度などの劣化条件下でRGBのみのMLLMが脆弱である課題に対処します。
  • 学習と評価を可能にするため、著者らはDV-204K(整合されたIR-RGB画像ペア約25Kと、モダリティ別のQA注釈を含む公開データセット)を公開しています。
  • また、DV-500(IR-RGBペア500とQAペア500からなるベンチマーク)も提供されており、モダリティ間の推論を評価することを目的としています。
  • 実験では、オープン・クローズドの両方のMLLMに対してDUALVISIONが多様な視覚劣化条件で経験的に高い性能を示すことが報告されています。

要旨: マルチモーダル大規模言語モデル(MLLM)は、RGB画像による視覚認識および推論タスクにおいて目覚ましい性能を達成してきましたが、霧、ぼかし、または低照度といった一般的な劣化に対しては脆弱なままです。赤外線(IR)イメージングはRGBの確立された補完技術であり、これらの条件下で本質的な頑健性を提供しますが、MLLMへの統合は十分に調査されていません。このギャップを埋めるために、本研究では DUALVISION を提案します。これは、パッチレベルの局所化されたクロスアテンションによって、IR-RGB の情報を効率的に MLLM に組み込む軽量な融合モジュールです。学習と評価を支援し、将来の研究を促進するために、我々はまた、公開されている整合済みの約25Kの IR-RGB画像ペアからなるデータセット DV-204K(204Kのモダリティ固有のQAアノテーション付き)と、クロスモーダル推論の評価のために設計された、500のIR-RGB画像ペアと500のQAペアからなるベンチマーク DV-500 も導入します。これらのデータセットを活用して、公開・非公開の両方の MLLM をベンチマークし、DUALVISION が幅広い視覚劣化のもとで強い実証的性能を示すことを明らかにします。コードとデータセットは https://abrarmajeedi.github.io/dualvision で利用可能です。