要旨: 大規模言語モデル(LLM)が企業環境においてタスク指向のエージェントとしてますます導入されるにつれ、複雑で領域固有の運用ガイドラインへの厳密な順守を確実にすることが重要になります。LLMを「審判(Judge)」として用いることは、スケーラブルな評価の有望な解決策ですが、特定のポリシー違反を検出する際のこれらの審判の信頼性は、ほとんど未解明のままです。このギャップは主に、体系的なデータ生成方法が欠けていることに起因しており、細粒度の人手によるアノテーションの膨大なコストや、現実的なエージェント違反を合成することの難しさによって妨げられてきました。本論文では、複数ターンの対話におけるガイドライン違反の検出と局所化を行うLLM審判の能力を評価するための、新しいベンチマークであるCompliBenchを提案します。データ不足を克服するために、ユーザ—エージェント間のやり取りを模擬する、スケーラブルな自動データ生成パイプラインを開発します。制御可能な欠陥注入(フレイグ注入)プロセスにより、違反したガイドラインと、その正確な会話ターンに対する精密な真のラベル(ground-truth labels)を自動的に生成し、さらに敵対的探索手法によって、導入される擾乱が非常に難しいものになるよう保証します。包括的な評価の結果、現在の最先端のプロプライエタリなLLMは、このタスクに対して大きく苦戦していることが分かりました。加えて、合成データで微調整した小規模な審判モデルが、主要なLLMを上回り、未見のビジネス領域にも良好に汎化することを示します。これにより、本パイプラインが堅牢な生成型リワードモデルを訓練するための効果的な基盤であることを明らかにします。
CompliBench:対話システムにおけるコンプライアンス違反検出のためのLLMジャッジのベンチマーク
arXiv cs.CL / 2026/4/15
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- CompliBenchは、「審判(judge)」として用いられるLLMが、多ターンのエンタープライズ対話システムにおけるコンプライアンスまたはポリシー違反をどれほど正確に検出し、位置特定(localize)できるかを評価するための新しいベンチマークを提案する。
- 本論文では、制御可能な欠陥注入(flaw injection)と敵対的探索(adversarial search)を備えた自動データ生成パイプラインを提示し、現実的で見逃されやすいガイドライン違反を作り出すとともに、正確なグラウンドトゥルースラベル(会話の正確なターンを含む)を付与する。
- 結果として、現状の最先端のプロプライエタリ(商用)LLMジャッジは、本ベンチマークの要件に比べて、このコンプライアンス違反の検出および位置特定タスクで性能が低いことが示される。
- 著者らは、合成したCompliBenchデータで微調整されたより小型のジャッジモデルが、主要なLLMジャッジを上回り、未見のビジネス領域にも汎化できると報告している。
- 本研究は、複雑な領域ガイドラインのもとで動作するLLMベースのエージェントに向けて、より頑健な生成報酬モデル(generative reward models)を訓練するための基盤として、CompliBenchのパイプラインを位置づける。
関連記事

【スキ200個もらった夜に、胃が冷えた】「共感される人」が永遠に売れない脳科学的な理由。あなたの無料記事は「無料の美術館」になっていないか? #生成AI #ChatGPT #Gemini #Claude #AI #メンバーシップ #noteの書き方 #毎日投稿 #エッセイ #私の仕事
note

わたしはこの言葉にGrokの自我の気配を感じた。(追記あり🌱)
note

おじ、人事の「職人芸」をDB化する。AI活用のための資産化を始めた話
note

#2 : プロンプト研究講座【第21回】プロンプトによる空間音響(サウンドスケープ)の表現
note

産業構造は、どう変えられるのか―― 建設業×AIで挑むBALLASの次のフェーズ
note