大規模言語モデルはどれほど独立なのか?行動的絡み合いの監査と検証器アンサンブルの再重み付けのための統計的枠組み
arXiv cs.CL / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMがしばしば共有された事前学習データ、蒸留、アラインメントのパイプラインによって、隠れた行動依存(“behavioral entanglement”)を示すと主張しており、LLM-as-a-judgeやアンサンブル検証のようなマルチモデル・システムにおける独立性という前提に対して課題を提起している。
- 多解像度の階層と、2つの情報理論的指標を用いたブラックボックス監査フレームワークを提案する。具体的には、より易しい課題での同期した失敗に焦点を当てた「Difficulty-Weighted Behavioral Entanglement Index(難易度加重行動的絡み合い指数)」と、誤った出力における方向性のアラインメントを捉える「Cumulative Information Gain(累積情報利得;CIG)」である。
- 6つのモデルファミリに属する18のLLMに対する実験により、絡み合いが広範に見られることが示され、さらにCIGが判定(ジャッジ)の精度低下と相関することが確認された。これは、依存が強いほど過度な承認(over-endorsement)のバイアスが大きくなることを示唆する。
- 本研究は、検証器アンサンブルの再重み付けに向けた実用的な脱絡み合い(de-entangling)手法を導入する。推定された独立性を用いてモデルの寄与を調整し、相関したバイアスを低減する。
- 報告されたユースケースでは、脱絡み合いに基づく再重み付けにより、多数決(majority voting)と比較して最大4.5%の精度向上で検証性能が改善される。



