I Can't Believe TTA Is Not Better: When Test-Time Augmentation Hurts Medical Image Classification

arXiv cs.CV / 4/14/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

Key Points

  • 医用画像分類の精度向上策として広く使われているテスト時データ拡張(TTA)は、複数のMedMNIST v2ベンチマークと多様なアーキテクチャに対して、しばしば単一パス推論より精度を下げることが体系的に示された。
  • 精度低下は最大31.6ポイント(ResNet-18の病理画像)に達し、畳み込みモデルを含む全アーキテクチャで概ね悪化し、増やす拡張ビュー数が多いほど悪化傾向が強まる。
  • その主因として、拡張入力と学習時入力の分布シフトに加え、バッチ正規化統計のミスマッチが強く関与していることが特定された。
  • 改善策として、拡張の種類は重要で、幾何学的変換よりも強度(intensity)中心の拡張の方が性能劣化を抑えられ、オリジナル画像を含めると部分的に緩和されるが完全には戻らない。
  • 実運用の注意点として、TTAはデフォルトで自動適用せず、モデルとデータセットの組み合わせごとに検証(バリデーション)するべきだと提言している。

Abstract

Test-time augmentation (TTA)--aggregating predictions over multiple augmented copies of a test input--is widely assumed to improve classification accuracy, particularly in medical imaging where it is routinely deployed in production systems and competition solutions. We present a systematic empirical study challenging this assumption across three MedMNIST v2 benchmarks and four architectures spanning three orders of magnitude in parameter count (21K to 11M). Our principal finding is that TTA with standard augmentation pipelines consistently degrades accuracy relative to single-pass inference, with drops as severe as 31.6 percentage points for ResNet-18 on pathology images. This degradation affects all architectures, including convolutional models, and worsens with more augmented views. The sole exception is ResNet-18 on dermatology images, which gains a modest +1.6%. We identify the distribution shift between augmented and training-time inputs--amplified by batch normalization statistics mismatch--as the primary mechanism. Our ablation studies show that augmentation strategy matters critically: intensity-only augmentations preserve more performance than geometric transforms, and including the original unaugmented image partially mitigates but does not eliminate the accuracy drop. These findings serve as a cautionary note for practitioners: TTA should not be applied as a default post-hoc improvement but must be validated on the specific model-dataset combination.