大規模言語モデルはどれほど独立なのか?行動的絡み合いの監査と検証器アンサンブルの再重み付けのための統計的枠組み

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMがしばしば共有された事前学習データ、蒸留、アラインメントのパイプラインによって、隠れた行動依存(“behavioral entanglement”)を示すと主張しており、LLM-as-a-judgeやアンサンブル検証のようなマルチモデル・システムにおける独立性という前提に対して課題を提起している。
  • 多解像度の階層と、2つの情報理論的指標を用いたブラックボックス監査フレームワークを提案する。具体的には、より易しい課題での同期した失敗に焦点を当てた「Difficulty-Weighted Behavioral Entanglement Index(難易度加重行動的絡み合い指数)」と、誤った出力における方向性のアラインメントを捉える「Cumulative Information Gain(累積情報利得;CIG)」である。
  • 6つのモデルファミリに属する18のLLMに対する実験により、絡み合いが広範に見られることが示され、さらにCIGが判定(ジャッジ)の精度低下と相関することが確認された。これは、依存が強いほど過度な承認(over-endorsement)のバイアスが大きくなることを示唆する。
  • 本研究は、検証器アンサンブルの再重み付けに向けた実用的な脱絡み合い(de-entangling)手法を導入する。推定された独立性を用いてモデルの寄与を調整し、相関したバイアスを低減する。
  • 報告されたユースケースでは、脱絡み合いに基づく再重み付けにより、多数決(majority voting)と比較して最大4.5%の精度向上で検証性能が改善される。

Abstract

大規模言語モデル(LLM)エコシステムの急速な成長は、重要な疑問を提起します。見かけ上は多様なモデルが、本当に互いに独立しているのでしょうか?共有された事前学習データ、蒸留、そしてアラインメントのパイプラインは、隠れた行動上の依存関係、すなわち潜在的な絡み合い(エンタングルメント)を引き起こし得ます。これは、LLM-as-a-judge パイプラインやアンサンブル検証のような複数モデルシステムを損ない、これらは暗黙に独立したシグナルを前提としています。実際には、相関した推論パターンや同期した失敗として現れます。見かけの一致は、独立した検証によるものというより、共有された誤りのモードを反映しているのです。この問題に対処するために、ブラックボックスのLLM間における行動的エンタングルメントを監査するための統計的枠組みを開発します。提案手法は、多解像度の階層構造を導入し、2つの情報理論的指標によって共同の失敗のマニフォールドを特徴づけます:(i)難易度加重行動エンタングルメント指数(Difficulty-Weighted Behavioral Entanglement Index)は、容易なタスクでの同期した失敗を増幅し、(ii)累積情報利得(Cumulative Information Gain; CIG)指標は、誤答における応答の方向性の一致を捉えます。6つのモデルファミリーに属する18のLLMを用いた大規模な実験により、広範な行動的エンタングルメントを特定し、それが LLM-as-a-judge 評価に与える影響を分析します。その結果、CIG は、判定者(judge)の精度低下と統計的に有意な関連を示すことが分かります。GPT-4o-mini では Spearman 係数 0.64(p < 0.001)、Llama3 ベースの判定者では 0.71(p < 0.01)であり、より強い依存は、過剰な裏付けバイアス(over-endorsement bias)の増加に対応することを示しています。最後に、エンタングルメントを実用的に扱うユースケースとして、脱絡み(de-entangled)された検証器アンサンブルの再重み付けを示します。推定された独立性に基づいてモデルの貢献度を調整することで、提案手法は相関したバイアスを緩和し、検証性能を改善します。多数決(majority voting)と比較して最大で 4.5% の精度向上を達成します。