KIRA:専門的な視覚領域向けの知識集約型画像検索・推論アーキテクチャ
arXiv cs.CV / 2026/4/21
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 本論文は、特殊な視覚領域における検索拡張生成(RAG)を改善するために、モダリティのギャップ、意味的な視覚知識ベース構築、多段(マルチホップ)推論、根拠に基づく整合性の検証といった主要課題に取り組む5段階の枠組みKIRAを提案しています。
- KIRAは、DINOベースの領域検出を用いた階層的意味チャンク化、稀少な概念向けのドメイン適応コントラスト学習エンコーダ、chain-of-thoughtによるクエリ拡張を伴うデュアルパスのクロスモーダル検索、さらに時間・マルチビュー対応のマルチホップ推論のためのchain-of-retrievalなどを中核として構成されています。
- 生成品質のために、KIRAは根拠条件付きのグラウンディング生成に加え、事後の幻覚(ハルシネーション)検証を用いて、回答が検索された視覚的根拠に忠実であることを目指します。
- 著者らは、DOMAINVQARというベンチマークを提案し、標準的なリコール指標だけでなく、検索精度・推論の忠実性・ドメイン適合性の3軸で視覚RAGを評価するとしています。
- 医用X線、回路図、衛星画像、病理組織標本の4領域での実験では、検索精度0.97、グラウンディング1.0、平均ドメイン正しさ0.707と高い性能が示され、アブレーションにより各コンポーネントが効く場面と、精度の多様性に関するトレードオフが生じ得る場面が明確化されています。コードは採択後に公開予定です。




