要旨: 法律QAのベンチマークは主として判例法に焦点を当ててきたが、法令中心の規制的推論に特有の課題は見過ごされてきた。法令領域では、関連する証拠が階層的に結び付いた文書群に分散しており、従来のリトリーバが機能せず、モデルが不完全な文脈のもとでしばしばハルシネーション(幻覚)を起こす「法令リトリーバルギャップ」が生じる。そこで我々は、法令中心の法律QAのための、構造と安全性を意識したベンチマークSearchFireSafetyを提案する。代表的なケースとして防火安全規制上で具現化したこのベンチマークは、モデルが階層的に断片化された証拠を検索できるか、また法令の文脈が不十分な場合に安全に棄権(abstain)できるかを評価する。SearchFireSafetyは、引用を意識した検索を必要とする実世界の質問と、ハルシネーションおよび拒否挙動を厳密に試験する合成の部分文脈シナリオを組み合わせた、デュアルソースの評価フレームワークを採用する。複数の大規模言語モデルに対する実験の結果、グラフ誘導型の検索は性能を大幅に向上させることが示されたが、同時に重要な安全性のトレードオフも明らかになった。すなわち、ドメイン適応されたモデルは、重要な法令証拠が欠落しているときにハルシネーションしやすいのである。我々の発見は、法令中心の規制環境において、階層的検索とモデルの安全性を同時に評価するベンチマークが必要であることを示している。
ケースロー法を超えて:制定法中心の法令QAにおける構造認識型リトリーバルと安全性の評価
arXiv cs.AI / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、既存の法令QAベンチマークが主に判例法を対象としており、証拠が階層的な文書に分散している制定法中心の規制的推論に固有の重要な困難を見落としていると主張する。
- 構造を認識した検索(グラフ/階層に導かれる)と、文脈が不十分なときの引用を考慮した棄権のような安全行動の両方を試すための新しいベンチマーク「SearchFireSafety」を提案する。
- ベンチマークは、引用が必要な実世界の質問と、合成した部分文脈ケースの2系統の評価アプローチを用い、幻覚と拒否(棄権)を特に測定する。
- 複数の大規模言語モデルに対する実験の結果、グラフ誘導型リトリーバルは性能を向上させる一方で、安全性のトレードオフも明らかになった。すなわち、領域適応したモデルは、重要な制定法の証拠が欠落している場合に、より多く幻覚を起こし得る。
- 本研究は、今後のベンチマークは、制定法中心の法令QAシナリオにおいて、階層的リトリーバルの品質とモデルの安全性を同時に評価すべきだと結論づける。



