意味セグメンテーションにおける「カノニカル」知識蒸留が意外に効果的である理由

arXiv cs.CV / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、意味セグメンテーション向けKDの先行研究が多くの場合「同じ反復回数」で比較しているため、反復あたりの計算コストが異なり、結果として計算予算が揃っていない可能性があると指摘している。
  • 壁時計時間ベースで計算量を揃えると、複雑な手作り目的関数を用いる近年のセグメンテーション特化手法よりも、カノニカルな(ロジット/特徴ベースの)KDの方が性能で上回ることを示している。
  • 訓練を長くした場合、特徴ベース蒸留はResNet-18学生モデルでCityscapesとADE20Kにおいて最先端性能を達成する。
  • PSPNetのResNet-18学生(教師のパラメータの約1/4のみ)でも高い精度を維持し、Cityscapesで教師のmIoUの99%(79.0 vs. 79.8)、ADE20Kで92%をそれぞれ達成する。
  • これらの結果は、セグメンテーション向けKDにはタスク固有の仕組みが必要という前提に疑問を投げかけ、今後の設計は複雑な目的関数よりもスケーリング(訓練規模)を重視すべきだと示唆している。

Abstract

最近の知識蒸留(KD)手法は意味セグメンテーションに対して導入されているが、ますます複雑な手作りの目的関数が必要になる一方で、通常は固定されたイテレーション計画のもとで評価されている。これらの目的関数は1イテレーションあたりのコストを大幅に増加させるため、同じイテレーション回数が同じ訓練予算を意味しない。したがって、報告されている改善がより強い蒸留シグナルによるものなのか、それとも単に計算量の増加によるものなのかは不明である。そこで本研究では、イテレーションベースの比較が誤解を招くことを示す。ウォールクロックの計算量が一致する場合、\textit{canonical} なロジットおよび特徴ベースのKDは、最近のセグメンテーション特化手法を上回る。訓練を延長すると、特徴ベースの蒸留により、Cityscapes と ADE20K において最新の ResNet-18 の性能が達成される。PSPNet ResNet-18 の学生モデルは、パラメータの4分の1のみを使用しているにもかかわらず、教師の ResNet-101 に非常に近い性能を示す。Cityscapes では教師の mIoU の 99\%(79.0 対 79.8)、ADE20K では 92\% に到達する。これらの結果は、セグメンテーションに対する KD にはタスク固有の仕組みが必要だという、現在の支配的な仮定に挑戦するものであり、今後の手法設計は複雑で手作りの目的関数ではなく、スケーリングによって導かれるべきだと示唆する。