ALIEN: LLMの不確実性推定を改善するためのAligned Entropy Head

arXiv stat.ML / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMの適応における不確実性推定のための予測エントロピーには限界があることを指摘している。具体的には、クラスの重なりや曖昧な手がかりといった要因を十分に捉えられず、難しい入力に対して過度に自信過剰になる。
  • 提案手法はALIEN(Aligned Entropy)であり、軽量な不確実性ヘッドを用いる。これはまずモデル元のエントロピーから開始し、その後、エントロピーを予測の信頼性に整合させる正則化によって微調整する。
  • 7つの分類データセットおよび2つのNERベンチマークで、複数の言語モデル(RoBERTa、ELECTRA、LLaMA-2、Qwen2.5、Qwen3)を用いて評価した結果、ALIENは誤った予測の検出を改善し、強力なベースラインに対して最も低いキャリブレーション誤差を達成した。
  • 本手法は実運用を見据えて設計されている。推論時のオーバーヘッドは小さく(CPU上でバッチあたりミリ秒程度)、パラメータ数の増加も最小限である(デコーダモデルで約0.002%、エンコーダモデルで0.5%)。また、中間状態の保存を必要としない。
  • 著者らは、教師ありの整合(supervised alignment)によってエントロピーを洗練させることで、元のバックボーン構造を維持しつつ、より信頼できる不確実性推定が得られると主張しており、大規模な実用利用を後押しするとしている。



要旨: 不確実性推定は、事前学習済み言語モデルを下流の分類タスクに適応する際に依然として重要な課題であり、困難な入力に対して過度な確信(overconfidence)がしばしば観測されます。予測エントロピーは不確実性推定の強力なベースラインを提供しますが、主にアレアトリック不確実性を考慮しており、クラスの重なりや曖昧な言語的手がかりのような影響を捉える能力には限界があります。そこで本研究では、予測信頼性に整合させることでエントロピーに基づく不確実性を洗練する軽量手法「Aligned Entropy - ALIEN(アラインド・エントロピー)」を提案します。ALIENは、モデル本来のエントロピーを出力するように初期化された小さな不確実性ヘッドを学習し、その後、2つの正則化メカニズムによって微調整します。7つの分類データセットと2つのNERベンチマークにまたがる実験を、5つの言語モデル(RoBERTa、ELECTRA、LLaMA-2、Qwen2.5、Qwen3)で評価した結果、ALIENは、考慮したすべてのシナリオにおいて誤った予測を検出する面で強力なベースラインを一貫して上回り、また最も低いキャリブレーション誤差を達成しました。提案手法は、推論における小さなオーバーヘッドのみを導入します(CPU上でバッチあたりミリ秒オーダー)し、デコーダモデルではパラメータ数をわずか0.002%、エンコーダモデルでは0.5%増加させるにとどまります。中間状態の保存は不要です。本手法は、元のモデルのアーキテクチャを保持したまま不確実性推定を改善し、現代の言語モデルによる大規模デプロイに実用的であることを示します。本結果は、エントロピーが軽量な教師あり整合によって効果的に洗練され、バックボーンモデルを変更せずに、より信頼できる不確実性推定を実現できることを示しています。コードは4で利用可能です。