偽相関の下で、弱から強への一般化は起こるのか?

arXiv stat.ML / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、偽相関を含む下流タスクにおいて、より弱い教師モデルからの擬似ラベルを用いて、強力な事前学習済みの学生モデルをファインチューニングする際の、弱から強への一般化(W2S)について、理論とアルゴリズムを統一的に研究し始めた。
  • グループの不均衡に起因する偽相関の2つの源を特定した。1つは、ηℓ の少数グループを含むラベル付きデータで訓練された弱い教師、もう1つは、ηu の少数グループの割合を持つ、教師によって偽ラベル付けされたグループ不均衡なラベルなしデータセットである。
  • 理論的結果は、ηu = ηℓ の場合、十分な擬似ラベルがあるとW2Sの利得が保証されることを示す一方、ηu ≠ ηℓ の場合には失敗する可能性があり、(ηu − ηℓ)² が大きくなるにつれて利得は減少する。
  • さまざまな偽相関ベンチマークでの実験は理論を裏付け、著者らは簡単な解決策を提案している。W2Sのファインチューニング後に、高信頼度データのサブセット上で強力な学生モデルを再訓練する、グループラベル不要のアプローチで、性能向上を示す。

要旨: 弱から強への (W2S) 一般化における重要な問題に対する、理論的かつアルゴリズム的な統一的研究を開始します。下流タスクで偽の相関が存在する場合に、劣る教師からの擬似ラベルを用いて強力な事前学習済みの student をファインチューニングすると、W2S は発生するのか、失敗をどう改善するのかを検討します。私たちは、グループ不均衡によって引き起こされる偽相関の2つの源を考えます:(i) 分数が \eta_\ell の少数派グループを含むグループ不均衡なラベル付きデータでファインチューニングされた弱い教師、(ii) 教師によって擬似ラベル付けされた、分数が \eta_u のグループ不均衡な無ラベルデータ集合。理論的には、比例的漸近極限におけるW2Sのゲインを正確に特徴づけると、\eta_u = \eta_\ell のとき十分な擬似ラベルがあれば常にW2Sが発生するが、\eta_u
e \eta_\ell
のときは発生する可能性が低くなり得る。ここでW2Sのゲインは (\eta_u - \eta_\ell)^2 が大きくなるにつれて小さくなる。私たちの理論は、さまざまな偽相関ベンチマークと教師-生徒ペアに対する広範な実験によって裏付けられている。失敗時のW2Sの性能を向上させるために、W2Sファインチューニング後に高信頼度データサブセット上で強い生徒モデルを再訓練する、単純で効果的なアルゴリズム的対処法を提案します。私たちのアルゴリズムはグループラベル不要で、標準的なW2Sファインチューニングに対して一貫した、顕著な改善をもたらします。