KG-CMI：医療ビジュアル質問応答のための知識グラフ強化クロス・マンバ相互作用

arXiv cs.CV / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、汎用のマルチモーダル特徴に頼るのではなく、領域固有の医療知識をより適切に統合することを目的とした医療ビジュアル質問応答フレームワーク「KG-CMI」を提案する。
KG-CMIは、クロスモーダル特徴アライメント、知識グラフ埋め込みモジュール、クロスモーダル相互作用表現、さらに自由形式の回答を強化するマルチタスク学習コンポーネントを組み合わせることで、病変から診断への関連付けやオープンエンドの回答を扱う。
病変の特徴と疾患の知識を結び付けるために知識グラフを用いることで、事前に定義された回答候補集合に対する分類を超えた意味理解の向上を目指す。
実験結果では、KG-CMIがVQA-RAD、SLAKE、OVQAにおいて最先端手法を上回ることが報告されており、著者らはフレームワークの有効性を支持するための解釈可能性（インタプリタビリティ）実験も含めている。

要旨: 医用視覚質問応答（Med-VQA）は、臨床における意思決定支援および遠隔医療における重要なマルチモーダル課題である。近年の手法は、領域固有の医療知識を十分に活用できていないため、医用画像中の病変特徴を主要な診断基準に正確に結びつけることが難しい。さらに、分類ベースのアプローチは通常、あらかじめ定義された回答集合に依存する。Med-VQAを単純な分類問題として扱うことは、自由形式の多様な回答へ適応する能力を制限し、これらの回答に含まれる詳細な意味情報を見落とす可能性がある。これらの課題に対処するため、我々は、知識グラフ強化クロス-Mamba相互作用（KG-CMI）フレームワークを提案する。これは、きめ細かなクロスモーダル特徴アライメント（FCFA）モジュール、知識グラフ埋め込み（KGE）モジュール、クロスモーダル相互作用表現（CMIR）モジュール、および自由形式回答強化マルチタスク学習（FAMT）モジュールから構成される。KG-CMIは、グラフを通じて専門的な医療知識を効果的に統合することで、画像とテキストのためのクロスモーダル特徴表現を学習し、病変特徴と疾患知識の間の関連付けを確立する。加えて、FAMTは自由形式の質問から得られる補助的な知識を活用し、オープンエンド（自由回答形式）なMed-VQAに対するモデルの能力を向上させる。実験結果は、KG-CMIが3つのMed-VQAデータセット、すなわちVQA-RAD、SLAKE、OVQAにおいて、既存の最先端手法を上回ることを示している。さらに、フレームワークの有効性をより一層検証するために、解釈可能性に関する実験も実施する。