歪み(ディストーション)に頑健な表現学習のためのビジョントランスフォーマーの蒸留

arXiv cs.CV / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、クリーン画像が利用できない、または極めて少ない状況でも自己教師ありの視覚表現学習を成立させるために、事前学習済みビジョンモデルを活用して歪みに頑健な表現を学習する手法を示します。
  • 提案手法では、教師と学生の両方を同一の事前学習済みVision Transformerから初期化しつつ、教師はクリーンな見え方を処理し、学生は歪んだ見え方を受け取るという非対称な知識蒸留を行います。
  • 多段階(multi-level)蒸留により、グローバル埋め込み、パッチ単位の特徴、注意(attention)マップといった複数の表現要素を整合させ、学生がクリーンデータを一度も直接参照せずにクリーン画像の表現を近似できることを狙います。
  • 複数のデータセットとさまざまな歪み条件での画像分類実験では、同じ量の人手による監督下で既存手法より一貫して優れる結果が示されています。

要旨: 自己教師あり学習は、クリーンなデータから視覚的表現を学習する分野で目覚ましい成功を収めてきましたが、クリーンな観測が乏しい場合、あるいはそもそも入手できない場合には依然として困難が残っています。本論文では、事前学習済みの視覚モデルを活用して歪みに頑健な表現を学習でき、そこから歪んだ観測に対して動作する下流タスクに効果的に適用できることを示します。具体的には、教師と学生の両方を同一の事前学習済みVision Transformerから初期化し、各画像に対して異なる見え方を与える非対称な知識蒸留の枠組みを提案します。教師はクリーン画像を処理し、学生はそれらの歪んだバージョンを見ます。グローバル埋め込み、パッチレベルの特徴、注意(アテンション)マップを整合させる多段階の蒸留を導入し、学生がクリーンデータに直接アクセスすることなく、クリーン画像の表現を近似できることを示します。我々の手法を、複数のデータセットにまたがる画像分類タスク、およびさまざまな歪みのもとで評価したところ、同じ量の人間による監督に対して一貫して既存の代替手法よりも優れた性能を示しました。