Less Is More? 多モーダル放射線要約における高重要度領域への選択的視覚注意

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多モーダル放射線要約がテキストのみのベースラインよりも性能が低下しうる理由として、モデルが視覚的ノイズに圧倒され、FINDINGS→IMPRESSION の変換を意味のある形で改善できない点を指摘している。
MIMIC-CXR に対する制御されたアブレーションにより、「より多くの画像ほど良い」という前提に異議を唱え、病変に関連するパッチへ選択的に注意を向けることで、全画像を用いる場合よりも結果が改善することを示す。
著者らは ViTAS（Visual-Text Attention Summarizer）を提案する。これは、アンサンブル誘導による MedSAM2 の肺セグメンテーション、複数ビュー融合のための双方向クロスアテンション、Shapley による適応的パッチクラスタリング、そして ViT への階層的視覚トークン化を用いるマルチステージのパイプラインである。
ViTAS はベンチマークで最先端の性能を報告しており、重なり指標での改善（29.25% BLEU-4、69.83% ROUGE-L）に加え、定性的評価において事実整合性がより良好であった。
人手評価でもこのアプローチを支持する結果が示されており、モデルは専門家による最高評価スコアを達成した。これにより、本タスクでは「量は少なくても、より関連性の高い視覚入力」の方が優れている可能性が強調されている。

Abstract

自動放射線レポート要約は、冗長な所見を簡潔な臨床的印象へと凝縮することを目指しますが、既存のマルチモーダルモデルはしばしば視覚的ノイズに苦しみ、FINDINGS

o

IMPRESSION の変換において強力なテキストのみのベースラインを意味のある形で上回ることができません。私たちは、2つの支配的な仮定に挑戦します: (1) より多くの視覚入力は常に良い、ということ、(2) 所見がすでに画像由来の詳細を豊富に含んでいる場合、マルチモーダルモデルの付加価値は限られている、ということ。MIMIC-CXR ベンチマークに対する制御されたアブレーションを通じて、全画像ではなく病理に関連する視覚パッチに選択的に注目することで、大幅に優れた性能が得られることを示します。私たちは ViTAS（Visual-Text Attention Summarizer）を提案します。ViTAS はマルチステージのパイプラインであり、アンサンブルに導かれた MedSAM2 による肺セグメンテーション、複数ビュー融合のための双方向クロスアテンション、Shapley に導かれた適応的パッチクラスタリング、そして階層的な視覚トークン化を経て ViT に入力します。ViTAS は、BLEU-4 が 29.25%、ROUGE-L が 69.83% の SOTA 結果を達成し、定性的分析における事実整合性の改善、ならびに専門家が評価した人手評価における最高スコアを示しました。私たちの結果は、マルチモーダル放射線要約において「少ないがより関連性の高い」視覚入力が、十分であるだけでなく、優れていることを示しています。