DeonticBench:ルールに基づく推論のためのベンチマーク
arXiv cs.CL / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMのための義務論的(デオンティック)推論を対象とする新しいベンチマーク「DeonticBench」を提案する。明示的なルールから、長いコンテキストかつ高リスクな領域において、義務・許可・禁止について推論することを扱う。
- DeonticBenchは、米国連邦税、航空会社の手荷物ポリシー、米国の入国管理、州の住宅法にまたがる6,232件のタスクを含み、自然言語による推論とソルバー支援型のワークフローの両方の選択肢を提供する。
- ベンチマークは、任意でシンボリックなパイプラインもサポートしている。モデルが法令や事案の事実を実行可能なPrologへと変換し、形式的な解釈と明示的なプログラムのトレースを生成する。すべてのインスタンスについて参照Prologプログラムが公開される。
- 結果から、最先端のLLMやコーディング系モデルでも、最良のハードサブセット性能は約44.4%(SARA Numeric)および46.6%のmacro-F1(Housing)にとどまり、ルールに根ざした推論には大きな改善余地があることが示される。
- 著者らは、シンボリックなプログラム生成に対する教師あり微調整および強化学習を調査し、学習によってProlog生成の品質は向上するものの、現時点の強化学習アプローチではタスクを確実に解けないことを見出している。



