弱者から強者へのアライメントにおけるリスク評価:バイアス・バリアンスの観点から

arXiv cs.AI / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は弱者から強者へのアライメントを扱い、弱い教師の盲点にある例で強いモデルが自信満々に誤りを出すことによって失敗が起こり得ると説明し、集計的な精度だけでは診断できない点を示します。
  • バイアス・バリアンス・共分散の枠組みを提示し、誤差(ミスフィット)に基づく弱者から強者の母集団リスクの上界を導出して、理論をポストトレーニング実務へ接続します。
  • PKU-SafeRLHF と HH-RLHF のデータセットで、SFT、RLHF、RLAIF を含む4つの弱者から強者のパイプラインを評価し、連続的な信頼度スコアと「盲点における欺き(blind-spot deception)」指標を用います。
  • 実験全体で、強いモデルの分散が欺きの最も強い経験的予測因子として現れ、共分散は補助的に弱い情報にとどまることが示されます。
  • 強いモデルの分散は弱者から強者の欺きに対する早期警戒シグナルになり得る一方、盲点評価は失敗が弱い教師の影響として受け継がれたものか、弱いモデルの不確実性が支配する領域で生じるものかを切り分けるのに役立つと提案します。