TTAがそこまで良くないなんて信じられない:テスト時データ拡張が医用画像分類を損なうとき
arXiv cs.CV / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 医用画像分類の精度向上策として広く使われているテスト時データ拡張(TTA)は、複数のMedMNIST v2ベンチマークと多様なアーキテクチャに対して、しばしば単一パス推論より精度を下げることが体系的に示された。
- 精度低下は最大31.6ポイント(ResNet-18の病理画像)に達し、畳み込みモデルを含む全アーキテクチャで概ね悪化し、増やす拡張ビュー数が多いほど悪化傾向が強まる。
- その主因として、拡張入力と学習時入力の分布シフトに加え、バッチ正規化統計のミスマッチが強く関与していることが特定された。
- 改善策として、拡張の種類は重要で、幾何学的変換よりも強度(intensity)中心の拡張の方が性能劣化を抑えられ、オリジナル画像を含めると部分的に緩和されるが完全には戻らない。
- 実運用の注意点として、TTAはデフォルトで自動適用せず、モデルとデータセットの組み合わせごとに検証(バリデーション)するべきだと提言している。


