頂点相対位置エンコーディングを用いた自己教師付きおよび半教師付き学習による3D外傷検出のデータ不足問題への対応

arXiv cs.CV / 2026/3/16

📰 ニュースModels & Research

要点

  • 本論文は、自己教師付き事前学習(マスク付き画像モデリング)と半教師付き検出を組み合わせた、ラベル効率の高いアプローチを提案し、アノテーションが乏しいデータに対処する。
  • 注釈なしの1,206個のCTボリュームを対象に3D U-Netエンコーダを事前学習し、パッチベースのマスク付き画像モデリングを介して頑健な解剖学的表現を学習する。
  • 下流タスクには、Vertex Relative Position Encodingを用いたVDETRによる3D外傷検出と多ラベル外傷分類が含まれ、144件のラベル付きサンプルで検証データ上のmAP@0.50が56.57%、テストデータ上のmAP@0.50が45.30%を達成し、教師あり学習と比較して115%の改善を示した。
  • 分類タスクでは、2,244件のラベル付きサンプルを用い、凍結済みエンコーダを用いて7つの外傷カテゴリでテスト精度94.07%を達成し、自己教師付き特徴の転移性を示す。

概要:正確な検出と腹部CTスキャンにおける外傷の定位は、救急放射線診断における重要な課題であり、主に注釈付き医療データの深刻な不足が原因です。本論文は、3D医用画像解析のための自己教師付き事前学習と半教師付き検出を組み合わせた、ラベル効率の高いアプローチを提示します。パッチベースのマスク付き画像モデリング(MIM)を用いて、注釈なしの1,206個のCTボリューム上で3D U-Netエンコーダを事前学習し、頑健な解剖表現を学習します。事前学習済みエンコーダは、二つの下流臨床タスクを可能にします:頂点相対位置エンコーディングを用いたVDETRによる3D損傷検出、および多ラベル損傷分類。検出の場合、2,000個の未ラベルボリュームと一貫性正則化を用いた半教師あり学習は、検証時のmAP@0.50が56.57%、テスト時が45.30%を達成し、教師ありのみの訓練に対して115%の改善を示します。分類の場合、ラベル付きサンプルを2,244個に拡張すると、凍結したエンコーダのみを用いて7つの損傷カテゴリに対してテスト精度94.07%を達成し、すぐに転用可能な自己教師付き特徴を実証します。我々の結果は、自己教師付き事前学習と半教師付き学習を組み合わせることが、医用画像におけるラベル不足に効果的に対処し、限られたアノテーションで頑健な3D物体検出を実現することを検証します。