DeonticBench:ルールに基づく推論のためのベンチマーク

arXiv cs.CL / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMのための義務論的(デオンティック)推論を対象とする新しいベンチマーク「DeonticBench」を提案する。明示的なルールから、長いコンテキストかつ高リスクな領域において、義務・許可・禁止について推論することを扱う。
  • DeonticBenchは、米国連邦税、航空会社の手荷物ポリシー、米国の入国管理、州の住宅法にまたがる6,232件のタスクを含み、自然言語による推論とソルバー支援型のワークフローの両方の選択肢を提供する。
  • ベンチマークは、任意でシンボリックなパイプラインもサポートしている。モデルが法令や事案の事実を実行可能なPrologへと変換し、形式的な解釈と明示的なプログラムのトレースを生成する。すべてのインスタンスについて参照Prologプログラムが公開される。
  • 結果から、最先端のLLMやコーディング系モデルでも、最良のハードサブセット性能は約44.4%(SARA Numeric)および46.6%のmacro-F1(Housing)にとどまり、ルールに根ざした推論には大きな改善余地があることが示される。
  • 著者らは、シンボリックなプログラム生成に対する教師あり微調整および強化学習を調査し、学習によってProlog生成の品質は向上するものの、現時点の強化学習アプローチではタスクを確実に解けないことを見出している。

Abstract

複雑で文脈依存のルールを用いた推論は、大規模言語モデル(LLM)にとって依然として難しい課題です。法務や政策の領域では、これがデオンティック推論(deontic reasoning)として現れます。つまり、明示的なルールのもとで、義務、許可、禁止について推論することです。近年の多くのベンチマークは短い文脈での数学的推論を重視していますが、長い文脈における高リスクのデオンティック推論に焦点を当てるものは多くありません。このギャップに対処するため、我々はDEONTICBENCHを導入します。これは、米国の連邦税、航空会社の手荷物ポリシー、米国の移民行政、米国の州の住宅法にまたがる6,232件のタスクからなるベンチマークです。これらのタスクは、言語での直接推論や、象徴的計算(symbolic computation)の支援など、複数の方法で取り組むことができます。自由形式のチェーン・オブ・ソート推論に加えて、DEONTICBENCHは任意のソルバ(solver)ベースのワークフローも可能にします。このワークフローでは、モデルが法律条文と事実関係を実行可能なPrologへと変換し、その結果として、形式化された問題解釈と、明示的なプログラムのトレースが得られます。すべてのインスタンスについて参照用のPrologプログラムを公開します。最先端のLLMやコーディングモデルにおける最良のハードサブセット性能は、SARA Numericで44.4%、Housingで46.6のmacro-F1にとどまります。さらに、象徴的なプログラム生成のための教師あり微調整と強化学習による学習を調査します。学習はProlog生成の品質を改善するものの、現行のRL手法では、これらのタスクを確実に解くことにまだ失敗しています。総合すると、DEONTICBENCHは、象徴的および非象徴的の両方の設定において、現実世界の領域での文脈に根ざしたルール推論を研究するためのベンチマークを提供します。