VISTA：自己蒸留による検証に基づく軌道適応（Validation-Informed Trajectory Adaptation via Self-Distillation）

arXiv cs.AI / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、深いモデルが検証精度に到達しながらも、初期の高い汎化性能状態を捨ててしまい、従来の過学習の兆候を引き起こさないことで、準最適な解へ収束してしまう失敗モード「Trajectory Deviation」を特定する。
「VISTA」は、検証に基づくMarginal Coverageスコアを用いて「エキスパート・アンカー（expert anchor）」となるモデル状態を選び、モデルの最適化軌道に沿った一貫性を強制するオンライン自己蒸留フレームワークを提案する。
VISTAは学習中に、これらのエキスパート・アンカーをカバレッジ（coverage）で重み付けしたアンサンブルとして構築し、それを用いて損失地形を正則化し、これまでに学習した潜在特徴を保持する。
複数のベンチマークにわたる実験により、VISTAは標準的な学習および従来の自己蒸留アプローチと比較して、頑健性と汎化性能を改善することが示される。
著者らは、軽量な実装によって保存に必要なオーバーヘッドを約90%削減しつつ性能を維持できるため、本手法がより実用的であると報告している。

Abstract

高い検証精度にもかかわらず、ディープラーニングモデルが最適ではない解へ収束してしまうことがあります。これは、最適化の失敗を「Trajectory Deviation（軌道の逸脱）」と呼ぶ形で覆い隠してしまうためです。というのも、学習が進むにつれて、モデルが特定のデータ部分集団に対しては有用な一方で、汎化が高い状態を捨ててしまい、従来学習した潜在特徴を、典型的な過学習のシグナルを引き起こさないまま破棄してしまうことがあるからです。この問題に対処するために、我々は最適化の軌道に沿った一貫性を強制するオンライン自己蒸留フレームワーク「VISTA」を提案します。検証に基づく「Marginal Coverage（周辺カバレッジ）」スコアを用いることで、VISTAは専門家アンカー（expert anchors）を特定します。これは、異なるデータ領域にわたって専門性を保持している、より初期のモデル状態です。これらのアンカーをカバレッジで重み付けしたアンサンブルを、学習中にオンラインで統合し、損失の景観を正則化するとともに、獲得した知識を保持します。複数のベンチマークで評価したところ、VISTAは標準的な学習および従来の自己蒸留手法に比べて、頑健性と汎化性能が向上することが示されました。また、軽量な実装により、性能低下なしにストレージのオーバーヘッドを90%削減します。