画像編集基盤モデルを活用したデータ効率の高いCT金属アーチファクト低減

arXiv cs.CV / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文はCTスキャンにおける金属アーチファクト低減を扱い、高減衰のインプラントが画質を大きく劣化させ、標準的な深層学習では大量の対応データセットが必要になってしまう点を指摘する。
  • アーチファクト低減を、汎用の視覚言語拡散基盤モデルをパラメータ効率の高いLoRAで適応させることで、文脈内推論(in-context reasoning)タスクとして再定式化する。その結果、必要データ量を16〜128組の対応例にまで削減でき(約2桁の削減)、データ効率を大幅に高める。
  • 著者らは、幻覚(hallucination)を防ぐためにはドメイン適応が不可欠であることを示す。適応を行わない場合、基盤モデルがストリーク状アーチファクトを実在の物体として誤って解釈する可能性がある。
  • 復元された解剖学的構造をより確実に根拠づけるために、複数参照(multi-reference)による条件付け戦略を提案する。これにより、破損した入力とともに、他被験者から得たクリーンな解剖学的実例をカテゴリ固有の推論のために提示する。
  • AAPM CT-MARベンチマークでの実験により、知覚指標および放射線学的特徴に関する指標で最先端の結果を報告し、コードも公開している。

Abstract

高減衰インプラントに由来する金属アーチファクトは、CT画像の品質を著しく劣化させ、重要な解剖学的構造を覆い隠し、また大量の対応づけられた学習データを必要とする標準的な深層学習手法にとっての課題となります。私たちはパラダイムシフトを提案します。すなわち、パラメータ効率の高いLow-Rank Adaptation(LoRA)により汎用の視覚言語拡散基盤モデルを適応させることで、アーチファクト低減をインコンテキスト推論タスクとして捉え直すのです。豊富な視覚的事前知識を活用することで、提案手法は16〜128件の対応学習例のみで有効なアーチファクト抑制を実現し、データ要件を2桁(オーダー)削減します。重要な点として、幻覚(hallucination)を抑制するにはドメイン適応が不可欠であることを示します。適応なしでは、基盤モデルが、ストリーク状アーチファクトを誤った自然物(たとえばワッフルやペトリ皿)として解釈してしまいます。復元の根拠を与えるために、複数参照の条件付け戦略を提案します。無関係な被験者から得られたクリーンな解剖学的模範例を、破損した入力とともに提示し、モデルがカテゴリー固有の文脈を利用して、非破損の解剖を推定できるようにします。AAPM CT-MARベンチマークでの大規模な評価により、本手法が知覚指標および放射線学的特徴量の両方において最先端の性能を達成することを示します。本研究は、適切に適応させた基盤モデルが、解釈可能でデータ効率の高い医療画像再構成に対する、スケーラブルな代替手段を提供しうることを確立します。コードは https://github.com/ahmetemirdagi/CT-EditMAR で公開されています。