Abstract
自動放射線レポート要約は、冗長な所見を簡潔な臨床的印象へと凝縮することを目指しますが、既存のマルチモーダルモデルはしばしば視覚的ノイズに苦しみ、FINDINGS o IMPRESSION の変換において強力なテキストのみのベースラインを意味のある形で上回ることができません。私たちは、2つの支配的な仮定に挑戦します: (1) より多くの視覚入力は常に良い、ということ、(2) 所見がすでに画像由来の詳細を豊富に含んでいる場合、マルチモーダルモデルの付加価値は限られている、ということ。MIMIC-CXR ベンチマークに対する制御されたアブレーションを通じて、全画像ではなく病理に関連する視覚パッチに選択的に注目することで、大幅に優れた性能が得られることを示します。私たちは ViTAS(Visual-Text Attention Summarizer)を提案します。ViTAS はマルチステージのパイプラインであり、アンサンブルに導かれた MedSAM2 による肺セグメンテーション、複数ビュー融合のための双方向クロスアテンション、Shapley に導かれた適応的パッチクラスタリング、そして階層的な視覚トークン化を経て ViT に入力します。ViTAS は、BLEU-4 が 29.25%、ROUGE-L が 69.83% の SOTA 結果を達成し、定性的分析における事実整合性の改善、ならびに専門家が評価した人手評価における最高スコアを示しました。私たちの結果は、マルチモーダル放射線要約において「少ないがより関連性の高い」視覚入力が、十分であるだけでなく、優れていることを示しています。