解釈可能な医用画像表現学習のためのスパースオートエンコーダ

arXiv cs.CV / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究では、医用画像のための視覚基盤モデル(FM)の潜在埋め込みを、人間が解釈・検証できる可能性のある解釈可能でスパースな特徴へ変換するために、スパースオートエンコーダ(SAE)を提案する。
  • TotalSegmentatorデータセットの909,873枚のCTおよびMRI 2Dスライスから得たBiomedParseおよびDINOv3の埋め込みを用いて学習したSAEは、高い忠実度(R²最大0.941)で元の埋め込みを再構成しつつ、10特徴のみで下流性能の最大87.8%を保持する(約99.4%の次元削減)。
  • 学習されたスパース特徴は、画像検索タスクにおいて意味的な忠実性を維持し、LLMベースの自動解釈によって言語で説明可能な、特定の概念との対応を示す。
  • 本アプローチは、臨床言語と抽象的な潜在表現の橋渡しを目指し、SAEの特徴空間を通じたゼロショットの言語主導型画像検索を可能にすることを狙う。
  • 著者らはコードリポジトリを公開しており、SAEを、概念に基づきより解釈可能な医用視覚システムへ向かう有望な経路として位置付けている。

要旨: 視覚基盤モデル(FM)は医療画像において最先端の性能を達成します。しかし、それらは情報を抽象的な潜在表現として符号化するため、臨床医はそれを問い質したり検証したりできません。本研究の目的は、不透明なFM画像表現を、人間が解釈できる疎(sparse)な特徴へ置き換えるためのSparse Autoencoders(SAE:疎オートエンコーダ)を調査することです。TotalSegmentatorデータセットの909,873枚のCTおよびMRIの2D画像スライスから得られる埋め込み(embeddings)を用い、BiomedParse(生物医学)およびDINOv3(汎用)でSAEを学習させます。学習された疎な特徴が、(a) 高い忠実度で元の埋め込みを再構成できる(R2 最大0.941)こと、また10特徴のみで下流タスクの性能の最大87.8%を復元できること(次元削減 99.4%)、(b) 画像検索タスクにおいて意味的忠実度を保持すること、(c) 大規模言語モデル(LLM)に基づく自動解釈によって言語で表現可能な、特定の概念に対応すること、(d) ゼロショットの言語駆動型画像検索において、臨床言語と抽象的な潜在表現をつなぐこと、を見出します。本研究は、SAEが解釈可能で概念駆動型の医療視覚システムへ向かう有望な道筋であることを示しています。コードリポジトリ: https://github.com/pwesp/sail。