KIRA：専門的な視覚領域向けの知識集約型画像検索・推論アーキテクチャ

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、特殊な視覚領域における検索拡張生成（RAG）を改善するために、モダリティのギャップ、意味的な視覚知識ベース構築、多段（マルチホップ）推論、根拠に基づく整合性の検証といった主要課題に取り組む5段階の枠組みKIRAを提案しています。
KIRAは、DINOベースの領域検出を用いた階層的意味チャンク化、稀少な概念向けのドメイン適応コントラスト学習エンコーダ、chain-of-thoughtによるクエリ拡張を伴うデュアルパスのクロスモーダル検索、さらに時間・マルチビュー対応のマルチホップ推論のためのchain-of-retrievalなどを中核として構成されています。
生成品質のために、KIRAは根拠条件付きのグラウンディング生成に加え、事後の幻覚（ハルシネーション）検証を用いて、回答が検索された視覚的根拠に忠実であることを目指します。
著者らは、DOMAINVQARというベンチマークを提案し、標準的なリコール指標だけでなく、検索精度・推論の忠実性・ドメイン適合性の3軸で視覚RAGを評価するとしています。
医用X線、回路図、衛星画像、病理組織標本の4領域での実験では、検索精度0.97、グラウンディング1.0、平均ドメイン正しさ0.707と高い性能が示され、アブレーションにより各コンポーネントが効く場面と、精度の多様性に関するトレードオフが生じ得る場面が明確化されています。コードは採択後に公開予定です。

Abstract

生成拡張型検索（RAG）はテキストベースの質問応答を変革してきましたが、視覚領域への拡張は本質的な課題によって妨げられています。具体的には、画像クエリとテキスト中心の知識ベースの間のモダリティギャップを埋めること、意味論的に妥当な視覚知識ベースを構築すること、検索された画像に対してマルチホップ推論を行うこと、そして生成された回答が視覚的証拠に忠実に根拠づけられていることを検証することです。私たちは、専門領域における視覚RAGの10の中核的問題に対処する、統一された5段階の枠組みであるKIRA（Knowledge Intensive Image Retrieval and Reasoning Architecture）を提示します。KIRAは、(1) DINOに基づく領域検出による階層的意味チャンク化で、マルチグラニュラリティの知識ベースを構築すること、(2) 希少な視覚概念向けのfew-shot適応を備えたドメイン適応型コントラスト学習エンコーダ、(3) chainOfThoughtによるクエリ拡張を伴うデュアルパスのクロスモーダル検索、(4) 時間的およびマルチビューのサポートによるchainOfRetrievalでマルチホップ視覚推論を行うこと、(5) 証拠に条件付けられた根拠づけ生成と事後の幻覚検証、を導入します。さらに、DOMAINVQARというベンチマークスイートを提案し、標準的なリコール指標を超えて、視覚RAGを3つの軸（検索精度、推論の忠実さ、ドメインの正しさ）に沿って評価します。4つの専門領域（医療X線、回路図、衛星画像、病理組織学）に対する、段階的な6つのバリエーションのアブレーション実験により、KIRAは領域平均で検索精度0.97、グラウンディングスコア1.0、ドメイン正確性0.707を達成し、またアブレーションによって、各コンポーネントがいつ有効であるか、そしてコンポーネントが精度の多様性に関するトレードオフを生み出して管理が必要になるのはいつか、という実行可能な洞察が明らかになります。コードは採択後に公開します。