ログの部分的証言:モデル選択が交絡する状況下での言語モデル生成の評価
arXiv cs.LG / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 使われたログに基づく言語モデルのオフライン評価は、モデル選択が交絡している場合に偏り得ることが示されます。
- ログ上の単純なスコア比較は、ユーザー側の要因が「どのモデルが使われたか」だけでなく「出力の評価」にも影響するため、共通の評価対象量を推定できていない可能性があります。
- 本論文は、大規模な観測ログ(OBS)、モデル選択を上書きする小規模なランダム化実験(EXP)、キャッシュ済み文脈で候補モデルを再生するオフライン・シミュレータ(SIM)を組み合わせる三源設計を提案しています。
- 主要な結果として、EXPとSIMを組み合わせれば因果的なモデル値を復元できることを示す同定定理を提示し、OBSは因果比較の妥当性ではなく推定誤差の低減に主に寄与すると説明しています。
- 6つの推定量ファミリを検証したところ、全ての条件で優越する手法はなく、無作為化実験による「偏りのない監督」の量や、目標報酬がOBS由来の構造とどれだけ整合するかに依存することが分かりました。




