アライメント税：アライメント済みLLMにおける応答の同質化と、不確実性推定への含意

arXiv cs.LG / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、RLHFでアライメントされたLLMが応答の同質化（response homogenization）を示しうることを報告しており、同じ質問に対する複数のサンプルが、TruthfulQAのようなベンチマーク上で単一の意味クラスタへと収束する。
同質化した質問に対しては、サンプリングに基づく一般的な不確実性推定手法が識別能力を失うことを見出している（AUROC ≈ 0.500）。一方で、free-token entropy のような代替のシグナルは、不確実性に関する情報をある程度は保持する。
アブレーション実験により、この効果は因果的にDPOによるものだと帰属している（SFT後よりDPO後のほうが同質化の度合いが高い）。さらに、ファミリーをまたいだ再現実験では、「アライメント税」がモデルの系統（family）やスケールによって変動することが示されている。
本研究はTruthfulQAにとどまらず、WebQuestionsを含み、複数のベンチマーク／ファミリーへと一般化している。バイアスに関する懸念を低減するため、ラベルなし・実装非依存の診断と、埋め込み（embedding）およびNLIベースの検証を用いる。
診断に動機づけられて、著者らは、互いに直交する不確実性シグナルに対する「cheapest-first（最安先行）」カスケード（UCBD）を提案する。これにより、選択的予測においてGSM8Kの精度が向上し、推論コストも削減される。

要旨: RLHF整合（アラインメント）された言語モデルは、応答の同質化（response homogenization）を示します。TruthfulQA（n=790）では、10個のi.i.d.サンプルに対して、40〜79%の質問が単一の意味クラスターを生成します。影響を受けた質問において、サンプリングに基づく不確実性手法は識別能力を持ちません（AUROC=0.500）が、自由トークンエントロピーは信号を保持します（0.603）。この整合による「アラインメント税（alignment tax）」はタスク依存であり、GSM8K（n=500）ではトークンエントロピーが0.724（Cohenのd=0.81）に達します。
ベース対インストラクションのアブレーションは、整合の因果的役割を確認します。ベースモデルは単一クラスター率が1.0%であるのに対し、インストラクションモデルは28.5%です（p < 10^{-6}）。訓練段階のアブレーション（Base 0.0% -> SFT 1.5% -> DPO 4.0% SCR）により、その原因はSFTではなくDPOに局在します。4つのモデルファミリにまたがるクロスファミリ再現では、整合税の深刻さがファミリとスケールによって変化することが明らかになります。22の実験、5つのベンチマーク、4つのモデルファミリ、3つのモデル規模（3B-14B）にわたり、3つのDeBERTaスケールでJaccard、埋め込み、およびNLIベースのベースライン（いずれも約0.51 AUROC）を用いて検証します。2つの独立した埋め込みファミリによるクロスエンコーダ検証は、結合（カップリング）バイアスを排除します。WebQuestionsでのクロスデータセット検証（58.0% SCR）により、TruthfulQAを超えた一般化が確認されます。中心となる発見――応答の同質化――は、実装に依存せず、ラベルなしで成立します。この診断に動機づけられ、直交する不確実性シグナル上で最安値優先のカスケード（UCBD）を探究します。選択的予測により、GSM8Kの精度はカバレッジ50%で84.4%から93.2%へ引き上がります。境界が弱く依存している（|r| <= 0.12）ため、57%のコスト削減が可能です。

Black Hat Asia

AI Business

AIの知能の爆発で、人間の薬剤師はどうなる？

note

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む都高齢協が調査

note

AIで絵本をKindleに出版したら驚きの結果！？副業初心者はコレを実践しろ！

note

🎬AIと子供の感性がハネた！親子で作る『へんがおラップ』製作記

note

アライメント税：アライメント済みLLMにおける応答の同質化と、不確実性推定への含意

要点

関連記事

Black Hat Asia

AIの知能の爆発で、人間の薬剤師はどうなる？

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む都高齢協が調査

AIで絵本をKindleに出版したら驚きの結果！？副業初心者はコレを実践しろ！

🎬AIと子供の感性がハネた！親子で作る『へんがおラップ』製作記

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

AIの知能の爆発で、人間の薬剤師はどうなる？

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む 都高齢協が調査

AIで絵本をKindleに出版したら驚きの結果！？副業初心者はコレを実践しろ！

🎬AIと子供の感性がハネた！親子で作る『へんがおラップ』製作記

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む都高齢協が調査