要旨: 胸部X線の解釈は、本質的に困難です。解剖学的構造の重なりに加えて、多くの臨床的に重要な病理の微妙な所見が存在するためです。その結果、経験豊富な放射線科医であっても正確な診断には時間がかかります。LLaVA-Rad や Maira-2 のような放射線科に特化した最近の基盤モデルは、多モーダル大規模言語モデル(MLLM)を、自動放射線レポート生成(RRG)の最前線に押し上げてきました。 しかし、こうした進展にもかかわらず、現在の基盤モデルは単一のフォワードパスでレポートを生成します。このデコーディング戦略は、視覚トークンへの注意を低下させ、生成が進むにつれて言語事前知識への依存を高めます。その結果、生成されたレポートには、病理の同時出現が根拠のない形で混入(スパリアスな併発)することが生じます。これらの制約を緩和するために、本研究では、構造化放射線レポート生成(SRRG)を改善することを目的とした、新規かつモジュール化された枠組みである Category-Wise Contrastive Decoding(CWCD)を提案します。提案手法では、カテゴリ固有のパラメータ化を導入し、カテゴリ固有の視覚プロンプトを用いて、正常X線とマスクされたX線を対比(コントラスト)することで、カテゴリ別のレポートを生成します。実験結果は、CWCD が、臨床的有効性と自然言語生成の両方の指標において、ベースライン手法を一貫して上回ることを示しています。さらにアブレーション研究により、各アーキテクチャ要素が全体の性能に寄与する度合いが明らかになります。
CWCD:構造化医療レポート生成のためのカテゴリ別コントラストデコーディング
arXiv cs.AI / 2026/4/14
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、胸部X線の放射線レポート生成で視覚トークンへの注意が生成後半で弱まり、言語の事前分布に依存して誤った病変の共起(spurious co-occurrence)が起きうる点を問題提起している。
- それを改善するために、Category-Wise Contrastive Decoding(CWCD)というモジュール型フレームワークを提案し、カテゴリ別パラメータ化とカテゴリ別の視覚プロンプトを用いて「正常」と「マスク済み」X線を対比させながらカテゴリごとのレポートを生成する。
- 実験では、CWCDがベースラインを臨床的有効性と自然言語生成の両方の指標で一貫して上回ることが示されている。
- アブレーション研究により、提案手法の各構成要素が性能にどの程度寄与するかも検証している。




