ログの部分的証言:モデル選択が交絡する状況下での言語モデル生成の評価

arXiv cs.LG / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 使われたログに基づく言語モデルのオフライン評価は、モデル選択が交絡している場合に偏り得ることが示されます。
  • ログ上の単純なスコア比較は、ユーザー側の要因が「どのモデルが使われたか」だけでなく「出力の評価」にも影響するため、共通の評価対象量を推定できていない可能性があります。
  • 本論文は、大規模な観測ログ(OBS)、モデル選択を上書きする小規模なランダム化実験(EXP)、キャッシュ済み文脈で候補モデルを再生するオフライン・シミュレータ(SIM)を組み合わせる三源設計を提案しています。
  • 主要な結果として、EXPとSIMを組み合わせれば因果的なモデル値を復元できることを示す同定定理を提示し、OBSは因果比較の妥当性ではなく推定誤差の低減に主に寄与すると説明しています。
  • 6つの推定量ファミリを検証したところ、全ての条件で優越する手法はなく、無作為化実験による「偏りのない監督」の量や、目標報酬がOBS由来の構造とどれだけ整合するかに依存することが分かりました。

Abstract

利用ログから言語モデルをオフライン評価することは、モデルの選択が交絡している場合にバイアスが生じます。つまり、どのモデルが使用されるかに影響する同じユーザー側の要因が、その出力の評価方法にも影響し得るため、ログに記録されたスコアの単純な比較は、共通の関心量を推定するのではなく、自己選択された集団が混ざったものになってしまいます。小規模なランダム化実験はモデル選択を上書きすることでこのバイアスを解消できますが、実際にはそのような実験は乏しく、費用もかかります。私たちは、規模のための大規模な交絡観測ログ(OBS)、バイアスのないスコアリングのための小規模なランダム化実験(EXP)、およびキャッシュされたコンテキスト上で候補モデルを再生(リプレイ)するオフライン・シミュレータ(SIM)を組み合わせた三つの情報源からなる設計を研究します。私たちの主結果は、ランダム化実験とシミュレータを組み合わせるだけで因果的なモデル値を復元できることを示す同定定理です。観測ログはその後にのみ導入され、因果的比較の妥当性を成立させるためではなく、推定誤差を減らすために用いられます。半合成の統制された検証および、要約とコーディングのための二つの実タスクのキャッシュ済みベンチマークで、6つの推定器ファミリを評価しました。どのファミリもすべての状況で常に優位というわけではありません。相対的な性能は、バイアスのないEXPの監督の量と、ターゲット報酬がOBSに由来する構造とどれほど整合しているかに依存します。