モデル単体の評価だけでは、デプロイに関係するアライメントは推定できない

arXiv cs.AI / 2026/5/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、モデルレベルの評価スコアだけからデプロイに関係するアライメントを確実に推定することはできないと主張しており、ベンチマークが前提としている「デプロイ上の主張」と実際に測っている内容が食い違うことが理由だと述べています。
アライメントの根拠となる評価証拠は、モデル単一スコアではなく、証拠が収集されるレベル（モデルレベル／応答レベル／相互作用レベル／デプロイレベル）で整理すべきだと提案しています。
8次元のルーブリックで採点し（Cohen’s kappa = 0.87）、11件（16件まで拡張）のアライメント・ベンチマークを監査した結果、調査した全ベンチマークでユーザー向けの検証支援が欠落しており、プロセスのステアラビリティもほぼ見られないことが分かったとしています。
180トランスクリプトを用いたブラインドのクロスモデル・ストレステストでは、検証用スキャフォールドの有効性がモデル依存であることが示され、モデルレベルで見つかったギャップはモデル単体の改善だけでは埋められないことを示唆しています。
著者らは、アライメント指標を単一スコアではなくプロファイルで示すこと、相互作用評価を比較可能にするための固定スキャフォールド手順、さらに評価証拠とデプロイ上の主張の間の推論距離を明示する報告テンプレートを用いたシステムレベルの評価アジェンダを提案しています。