TTAがそこまで良くないなんて信じられない:テスト時データ拡張が医用画像分類を損なうとき

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 医用画像分類の精度向上策として広く使われているテスト時データ拡張(TTA)は、複数のMedMNIST v2ベンチマークと多様なアーキテクチャに対して、しばしば単一パス推論より精度を下げることが体系的に示された。
  • 精度低下は最大31.6ポイント(ResNet-18の病理画像)に達し、畳み込みモデルを含む全アーキテクチャで概ね悪化し、増やす拡張ビュー数が多いほど悪化傾向が強まる。
  • その主因として、拡張入力と学習時入力の分布シフトに加え、バッチ正規化統計のミスマッチが強く関与していることが特定された。
  • 改善策として、拡張の種類は重要で、幾何学的変換よりも強度(intensity)中心の拡張の方が性能劣化を抑えられ、オリジナル画像を含めると部分的に緩和されるが完全には戻らない。
  • 実運用の注意点として、TTAはデフォルトで自動適用せず、モデルとデータセットの組み合わせごとに検証(バリデーション)するべきだと提言している。

Abstract

テスト時オーグメンテーション(TTA)――テスト入力の複数のオーグメントされたコピーにわたって予測を集約すること――は、特に医用画像分野において分類精度を向上させると広く前提とされており、プロダクションシステムや競技用ソリューションの中で日常的に導入されています。本研究では、この前提に対して3つのMedMNIST v2ベンチマークと、パラメータ数が3桁(21Kから11M)に及ぶ4つのアーキテクチャにまたがる、体系的な実証研究を提示します。主要な発見は、標準的なオーグメンテーション手順を用いたTTAは、単一パス推論と比べて一貫して精度を低下させるという点です。病理画像におけるResNet-18では、低下幅が31.6パーセントポイントにまで達します。この低下は、畳み込みモデルを含むすべてのアーキテクチャに影響し、オーグメントされたビュー数が増えるほど悪化します。唯一の例外は、皮膚科領域の画像に対するResNet-18で、わずかに+1.6%向上します。私たちは、オーグメントされた入力と訓練時入力の間に生じる分布シフト――バッチ正規化統計の不一致によって増幅される――を主要なメカニズムとして特定します。アブレーション研究により、オーグメンテーション戦略が極めて重要であることが示されます。すなわち、強度(intensity)にのみ基づくオーグメンテーションは、幾何学的変換よりもパフォーマンスをより保ち、またオーグメントされていない元の画像を含めることは、精度低下を部分的に緩和しますが、それでも完全には解消できません。これらの結果は、実務者への注意喚起として機能します。TTAは、デフォルトの事後的改善として適用すべきではなく、対象となるモデルとデータセットの組み合わせに対して必ず検証する必要があります。