RIHA:放射線レポート生成のためのレポート画像階層アラインメント

arXiv cs.CV / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 放射線レポート生成は、医療画像から診断レポートを自動作成して放射線科医の負担やエラーを減らすことを目的とする一方で、長文レポートの階層構造に対して細かな視覚特徴を正確に対応付けるのが難しい。
  • 本研究は、多くの既存手法がレポートを平坦な系列として扱うため、視覚とテキストのきめ細かなクロスモーダル対応が不十分になり精度が低下すると指摘している。
  • そこで、RIHA(Report-Image Hierarchical Alignment Transformer)は、段落・文・単語といった複数レベルで画像とレポートを整合させるエンドツーエンドの枠組みを提案する。
  • RIHAはVisual Feature PyramidとText Feature Pyramidを用い、Cross-modal Hierarchical Alignmentモジュールで最適輸送(optimal transport)によりレベル間の整合を行い、さらにデコーダにRelative Positional Encodingを組み込んでトークン単位の整合を高める。
  • IU-XrayとMIMIC-CXRの2つのベンチマークでの実験では、RIHAが自然言語生成と臨床有効性指標の両方で従来の最先端手法を上回ることが示された。

概要: 放射線レポート生成(RRG)は、医療画像から診断レポートを自動生成することで、放射線科医の負担を軽減し、人為的な誤りを減らす有望なアプローチとして注目されています。RRGにおける重要な課題は、複雑な視覚的特徴と長文の放射線科レポートにおける階層構造との間で、きめ細かな整合を実現することです。近年の手法は画像とテキストの表現学習を改善してきましたが、報告書を平坦な系列として扱うことが多く、構造化されたセクションや意味的な階層を見落としています。この単純化は、精密な異種モーダル間の整合を妨げ、RRGの精度を低下させます。こうした課題に対処するために、本研究ではRIHA(Report-Image Hierarchical Alignment Transformer)を提案します。これは、段落・文・単語レベルにまたがって、放射線画像と対応するレポートとの間で多段階の整合を行う新しいエンドツーエンドの枠組みです。この階層的整合により、臨床的な叙述に埋め込まれた微妙な意味論を捉えるために不可欠な、より正確な異種モーダル間の対応付けが可能になります。具体的には、RIHAは、複数スケールの視覚的特徴を抽出するためのVisual Feature Pyramid(VFP)と、多粒度のテキスト構造を表すためのText Feature Pyramid(TFP)を導入します。これらの要素は、最適輸送を活用するCross-modal Hierarchical Alignment(CHA)モジュールにより統合され、さまざまなレベルにおいて視覚的特徴とテキスト的特徴を効果的に整合させます。さらに、生成トークン間の空間的および意味的関係をモデル化するために、デコーダにRelative Positional Encoding(RPE)を組み込み、視覚的特徴と生成テキストの間のトークンレベルの整合を強化します。IU-XrayおよびMIMIC-CXRの2つのベンチマーク胸部X線データセットに対する大規模な実験により、RIHAは自然言語生成および臨床的有効性の指標の両方で、既存の最先端モデルを上回ることが示されました。