AI Navigate

ケースベース類似検索を用いた放射線診断所見の根拠付きドラフト作成のためのマルチモーダル検索強化

arXiv cs.AI / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、完全生成型の放射線診断レポートモデルにおける幻覚の問題に対処し、ドラフトを歴史的報告に基づかせる検索強化生成アプローチを提案する。
  • マルチモーダルな画像-テキスト埋め込み、ケースベースの類似検索、引用を制約とするドラフト生成を組み合わせ、事実性の整合性を保証する。
  • 画像には CLIP を用い、テキストには構造化された印象を用いて、MIMIC-CXR のサブセットからマルチモーダル検索データベースを構築し、FAISS によるスケーラブルな最近傍検索を可能にする。
  • 取得された症例は、引用の網羅性を担保し、未知時には自信度に基づく拒否を行う安全機構を備えた根拠付けプロンプトの構築に用いられる。
  • 実験結果は、マルチモーダル融合により検索性能が向上(Recall@5 > 0.95)し、解釈可能で引用を辿れるドラフトを生み出すことを示し、臨床意思決定支援の信頼性を高める。

Abstract

Automated radiology report generation has gained increasing attention with the rise of deep learning and large language models. However, fully generative approaches often suffer from hallucinations and lack clinical grounding, limiting their reliability in real-world workflows. In this study, we propose a multimodal retrieval-augmented generation (RAG) system for grounded drafting of chest radiograph impressions. The system combines contrastive image-text embeddings, case-based similarity retrieval, and citation-constrained draft generation to ensure factual alignment with historical radiology reports. A curated subset of the MIMIC-CXR dataset was used to construct a multimodal retrieval database. Image embeddings were generated using CLIP encoders, while textual embeddings were derived from structured impression sections. A fusion similarity framework was implemented using FAISS indexing for scalable nearest-neighbor retrieval. Retrieved cases were used to construct grounded prompts for draft impression generation, with safety mechanisms enforcing citation coverage and confidence-based refusal. Experimental results demonstrate that multimodal fusion significantly improves retrieval performance compared to image-only retrieval, achieving Recall@5 above 0.95 on clinically relevant findings. The grounded drafting pipeline produces interpretable outputs with explicit citation traceability, enabling improved trustworthiness compared to conventional generative approaches. This work highlights the potential of retrieval-augmented multimodal systems for reliable clinical decision support and radiology workflow augmentation