圧縮は一貫性を優先するが、真実を優先するわけではない――言語モデルが正確な情報を好むのはいつ・なぜか

arXiv cs.CL / 2026/3/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「圧縮-一貫性原理」を提唱し、次のトークン予測が訓練データをより短く、内部的一貫性のある記述を生み出す仮説を支持する。
言語モデルの真実バイアスは真実へ向かう本質的推進力ではなく、偽の選択肢を構造的に圧縮するのが難しい場合に生じる、という主張である。
GPT-2風のモデルを用いた合成データの実験では、正しい補完は均衡データで83.1%の精度、正しい規則がコーパスの10%しか占めない場合でも67.0%に達した。
ランダムな誤りを、一貫性はあるが数学的には不正確な規則系に置換すると、正確さの優先は大幅に排除され、精度は偶然値へ向かう。より自然言語に近い合成設定では効果は弱くても現れる（57.7%）。
著者らは、埋め込み検証ステップが小規模でも正確さの嗜好を回復させ、より一貫性のある規則を増やすと精度が階段状に改善されることを示し、観測された“真実バイアス”は内部圧力と内部的一貫性の嗜好の副作用であると示唆している。
完全なコードとデータは https://github.com/Rai220/compression-drives-truth で入手可能。

要旨: 言語モデルはなぜ品質が混在するデータで学習しても正しい表現を好むのか。私たちは「圧縮—一貫性原理」を導入する。次のトークン予測は、訓練データをより短く、内部的に一貫した記述を可能にする仮説を支持する。偽の選択肢が構造的に圧縮することが難しい場合にのみ、真実バイアスは生じる。これを、正しくて段階的に設定されたルールを混在させた合成数学コーパス上で、GPT-2風のキャラクター・レベル・トランスフォーマー（3.5M〜86Mパラメータ）を用いて検証する。ランダム誤差設定では、ペア評価でモデルは正しい補完を強く選好する：均衡データで83.1%、コーパス中に正しい規則が10%しか現れない場合でも67.0%。ランダム誤りを、一貫性はあるが数学的には不正確な規칙系に置換すると、選好はほぼ消え、精度は偶然値へ向かう。より自然言語に近い合成世界では効果は弱いが依然として現れる（57.7%）。追加の実験では、埋め込み検証ステップが小規模でも正確さの嗜好を回復させ、より一貫性のある規則を増やすと精度が階梯的に改善される。我々の結果は、観測された“真実バイアス”は内部圧力と内部的一貫性の嗜好の副作用の大半を占めており、真実へ向かう本質的推進力ではないことを示唆している。完全なコードとデータは https://github.com/Rai220/compression-drives-truth で入手可能。