頭頸部がんの予後予測におけるXAI手法のランキング評価

arXiv cs.CV / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、PET/CTデータに基づくAIで頭頸部がん患者の予後を予測する課題に取り組みつつ、臨床導入の大きな障壁である「解釈可能性」を重視している。
  • 頭頸部がん領域における説明可能AI(XAI)手法13種類を対象に、24の評価指標で包括的に評価・順位付けする点が本研究の新規性である。
  • 評価は、信頼性(faithfulness)、頑健性(robustness)、複雑さ(complexity)、妥当性(plausibility)など複数の観点を含み、経験的な選定だけに依存しない。
  • 多施設のHECKTORチャレンジデータセットでの実験ではXAI手法間の差が大きく、Integrated Gradients(IG)とDeepLIFT(DL)が主要な基準で一貫して高い順位を獲得した。
  • 著者らは医用画像での実運用にはXAIの徹底評価が重要であり、この枠組みは他の医用画像タスクにも拡張できると述べている。

Abstract

頭頸部がん(HNC)患者において、予後アウトカムの予測はパーソナライズされた治療戦略の選択を支援できる。PET/CTデータに対して、高度な人工知能(AI)技術を用いることで、HNCアウトカムの予測性能を改善する取り組みは広範に行われてきた。しかし、AIの解釈可能性は、臨床で採用するうえで重大な障害となっている。説明可能なAI(XAI)手法を経験的に選定した先行研究とは異なり、本研究は、信頼性(faithfulness)、頑健性(robustness)、複雑さ(complexity)、妥当性(plausibility)を含む24の評価指標のもとで、13のXAI手法を包括的に評価し、順位付けした最初の試みである。複数施設のHECKTORチャレンジのデータセットに関する実験結果では、評価の観点において、異なるXAI手法間で大きなばらつきが見られた。Integrated Gradients(IG)とDeepLIFT(DL)は、信頼性、複雑さ、妥当性の各点で一貫して高い順位を獲得した。本研究は、包括的なXAI手法の評価の重要性を示すものであり、他の医用画像タスクにも拡張できる。