広告

アライメント税:アライメント済みLLMにおける応答の同質化と、不確実性推定への含意

arXiv cs.LG / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、RLHFでアライメントされたLLMが応答の同質化(response homogenization)を示しうることを報告しており、同じ質問に対する複数のサンプルが、TruthfulQAのようなベンチマーク上で単一の意味クラスタへと収束する。
  • 同質化した質問に対しては、サンプリングに基づく一般的な不確実性推定手法が識別能力を失うことを見出している(AUROC ≈ 0.500)。一方で、free-token entropy のような代替のシグナルは、不確実性に関する情報をある程度は保持する。
  • アブレーション実験により、この効果は因果的にDPOによるものだと帰属している(SFT後よりDPO後のほうが同質化の度合いが高い)。さらに、ファミリーをまたいだ再現実験では、「アライメント税」がモデルの系統(family)やスケールによって変動することが示されている。
  • 本研究はTruthfulQAにとどまらず、WebQuestionsを含み、複数のベンチマーク/ファミリーへと一般化している。バイアスに関する懸念を低減するため、ラベルなし・実装非依存の診断と、埋め込み(embedding)およびNLIベースの検証を用いる。
  • 診断に動機づけられて、著者らは、互いに直交する不確実性シグナルに対する「cheapest-first(最安先行)」カスケード(UCBD)を提案する。これにより、選択的予測においてGSM8Kの精度が向上し、推論コストも削減される。

要旨: RLHF整合(アラインメント)された言語モデルは、応答の同質化(response homogenization)を示します。TruthfulQA(n=790)では、10個のi.i.d.サンプルに対して、40〜79%の質問が単一の意味クラスターを生成します。影響を受けた質問において、サンプリングに基づく不確実性手法は識別能力を持ちません(AUROC=0.500)が、自由トークンエントロピーは信号を保持します(0.603)。この整合による「アラインメント税(alignment tax)」はタスク依存であり、GSM8K(n=500)ではトークンエントロピーが0.724(Cohenのd=0.81)に達します。
ベース対インストラクションのアブレーションは、整合の因果的役割を確認します。ベースモデルは単一クラスター率が1.0%であるのに対し、インストラクションモデルは28.5%です(p < 10^{-6})。訓練段階のアブレーション(Base 0.0% -> SFT 1.5% -> DPO 4.0% SCR)により、その原因はSFTではなくDPOに局在します。4つのモデルファミリにまたがるクロスファミリ再現では、整合税の深刻さがファミリとスケールによって変化することが明らかになります。22の実験、5つのベンチマーク、4つのモデルファミリ、3つのモデル規模(3B-14B)にわたり、3つのDeBERTaスケールでJaccard、埋め込み、およびNLIベースのベースライン(いずれも約0.51 AUROC)を用いて検証します。2つの独立した埋め込みファミリによるクロスエンコーダ検証は、結合(カップリング)バイアスを排除します。WebQuestionsでのクロスデータセット検証(58.0% SCR)により、TruthfulQAを超えた一般化が確認されます。中心となる発見――応答の同質化――は、実装に依存せず、ラベルなしで成立します。この診断に動機づけられ、直交する不確実性シグナル上で最安値優先のカスケード(UCBD)を探究します。選択的予測により、GSM8Kの精度はカバレッジ50%で84.4%から93.2%へ引き上がります。境界が弱く依存している(|r| <= 0.12)ため、57%のコスト削減が可能です。

広告