合意トラップを抜け出す：ルールに従うAIを評価するための防御可能性シグナル

arXiv cs.AI / 2026/4/25

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、ルールに基づく環境でのAI評価を人間ラベルとの「一致」で行うことは誤解を招き得ると主張しており、同一のポリシー下では論理的に妥当な複数の判断があり得るため、「Agreement Trap（合意トラップ）」という失敗モードが起きると述べています。
そこで、政策（ルール）に根ざした正しさ（policy-grounded correctness）として新しい指標であるDefensibility Index（DI）とAmbiguity Index（AI）を提案し、判断がルール階層から論理的に導けるかを測定します。
追加の監査パスなしで推論の安定性を推定するために、監査モデルのトークンlogprobsから算出するProbabilistic Defensibility Signal（PDS）を導入し、LLMの推論トレースを統治（ガバナンス）のシグナルとして用いて、最終分類出力として扱わない設計にしています。
193,000件超のRedditモデレーション判断を用いた検証では、合意ベースの指標と政策に根ざした指標の間に大きな差（33〜46.6ポイント）が見られ、いわゆるfalse negativesの多くが「真の誤り」ではなく政策に根ざした判断に対応することが示されています。
これらのシグナルに基づく「Governance Gate」は、自動化カバレッジ78.6%でリスクを64.9%削減できるとされ、また曖昧さはデコードノイズよりもルールの具体性に主に左右されることが示されています。

要旨: コンテンツモデレーション・システムは通常、人間のラベルとの一致度を測定することで評価されます。しかし、規則に基づく環境ではこの前提が成り立ちません。複数の判断が、統治するポリシー（規範）に照らして論理的に整合しうるためです。そして一致度の指標は、妥当な判断を不当に罰し、曖昧さをエラーとして誤って特徴づけてしまいます。この失敗モードを我々はAgreement Trap（一致トラップ）と呼びます。評価をポリシーに根差した正しさとして形式化し、Defensibility Index（DI）とAmbiguity Index（AI）を導入します。追加の監査パスを行わずに推論の安定性を推定するために、監査モデルのトークンlogprobsから導出されるProbabilistic Defensibility Signal（PDS）を提案します。我々は、監査モデルを導入することで、LLMの推論トレースを分類出力ではなく統治（ガバナンス）指標として活用します。具体的には、監査モデルにコンテンツがポリシー違反かどうかを判断させるのではなく、提案された判断が、統治するルール階層から論理的に導出可能かどうかを検証させます。193,000件以上のRedditのモデレーション判断を、複数コミュニティおよび複数の評価コホートにわたって検証したところ、一致ベースの指標とポリシーに根差した指標の間に33〜46.6パーセンテージポイントのギャップが見られました。また、モデルの誤検出（false negatives）の79.8〜80.6%が、真の誤りではなくポリシーに根差した判断に対応していました。さらに、測定された曖昧さがルールの具体性（特異性）によって駆動されることを示します。すなわち、同一コミュニティのルールを3つの階層レベルに分けて37,286件の同一判断を監査すると、AIは10.8pp低下する一方、DIは安定したままでした。反復サンプリング分析により、PDSの分散は主として復号ノイズではなく統治上の曖昧さに起因することが明らかになりました。これらの指標に基づくGovernance Gateは、リスクを64.9%削減しつつ、自動化カバレッジを78.6%達成します。これらの結果は、規則に基づく環境における評価は、過去のラベルとの一致から、明示的なルールに基づく推論の妥当性へと移行すべきであることを示しています。