I Can't Believe TTA Is Not Better: When Test-Time Augmentation Hurts Medical Image Classification
arXiv cs.CV / 4/14/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
Key Points
- 医用画像分類の精度向上策として広く使われているテスト時データ拡張(TTA)は、複数のMedMNIST v2ベンチマークと多様なアーキテクチャに対して、しばしば単一パス推論より精度を下げることが体系的に示された。
- 精度低下は最大31.6ポイント(ResNet-18の病理画像)に達し、畳み込みモデルを含む全アーキテクチャで概ね悪化し、増やす拡張ビュー数が多いほど悪化傾向が強まる。
- その主因として、拡張入力と学習時入力の分布シフトに加え、バッチ正規化統計のミスマッチが強く関与していることが特定された。
- 改善策として、拡張の種類は重要で、幾何学的変換よりも強度(intensity)中心の拡張の方が性能劣化を抑えられ、オリジナル画像を含めると部分的に緩和されるが完全には戻らない。
- 実運用の注意点として、TTAはデフォルトで自動適用せず、モデルとデータセットの組み合わせごとに検証(バリデーション)するべきだと提言している。
Related Articles

Black Hat USA
AI Business

Black Hat Asia
AI Business

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to

Don't forget, there is more than forgetting: new metrics for Continual Learning
Dev.to

Microsoft MAI-Image-2-Efficient Review 2026: The AI Image Model Built for Production Scale
Dev.to