Residual-as-Teacher：学生—教師推定におけるバイアス伝播の抑制

arXiv stat.ML / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、学生—教師の統計的推定を研究し、教師の出力を模倣する標準的な学生ソフトマッチング（SM）が、教師の体系的バイアスを学生へと伝播し得ることを論じる。
「residual-as-teacher」（RaT）を提案する。ここでは、教師を出力の直接的なマッチングではなく、学生の予測における残差の推定に用いる。
著者らは理論的に、RaTが近位勾配スタイルの最適化過程を模倣できることを示し、非漸近的な超過リスクの上界に加えて、反復する学生—教師スキームの収束保証を与える。
カーネルに基づく学生—教師の組では、RaTがミニマックス最適な性能に到達することが証明される。一方でSMは、サンプル数にかかわらず一定の予測誤差に悩まされる。
合成データおよび共変量シフト下でのImageNette分類に対する実験が理論を支持し、RaTが実務的な設定においてバイアス伝播を緩和することを示している。

Abstract

私たちは、事前学習済みの教師の予測を用いて学生モデルを導く「生徒—教師」設定における統計的推定を研究します。標準的なアプローチは、学生を教師の出力に直接合わせて学習させることであり、これを学生ソフトマッチング（SM）と呼びます。このアプローチでは、教師に存在するあらゆる体系的バイアスや不適合（ミススペシフィケーション）がそのまま伝播されるため、学生の予測が劣化します。私たちは、教師を用いて学生の予測における残差を推定するという代替の方式、residual-as-teacher（RaT）を提案し、その解析を行います。解析により、学生がそれによって、オラクル最適化問題を解くための近接勾配（プロキシマル・グラディエント）方式をエミュレートできること、そしてそれにより教師バイアスの影響が確実に低減されることが示されます。一般の生徒—教師の組に対して、RaTの固定点（固定点が何であっても）に対する非漸近的な超過リスク上界を確立し、さらに生徒—教師の反復スキームに対する収束保証も示します。カーネルベースの生徒—教師の組では、鋭い分岐（セパレーション）を証明します。すなわち、RaT法はミニマックス最適なレートを達成する一方で、SM法はサンプルサイズがどれだけ大きくても一定の予測誤差を被ります。共変量シフト下での合成データとImageNette分類の両方に対する実験が、理論的結果を裏づけます。