LegalDrill：小規模言語モデルによる法的推論のための診断駆動型合成

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、法令解釈と論理的整合性を要する高リスクな法的推論において、小規模言語モデルの性能を高める診断駆動型の合成フレームワーク「LegalDrill」を提案している。
LegalDrillは、専門家による高コストな推論トレース収集に代えて、強力な教師モデルからきめ細かなプロンプトで推論軌跡を生成し、自己省察的な検証で最適な学習データを適応的に選別する。
選別されたデータは、教師あり微調整とダイレクト・プリファレンス・オプティマイゼーションを通じて学習に用いられ、推論の一貫性と演繹の整合性の両方を狙っている。
複数の法的ベンチマークで、代表的な小規模モデルに対して大きな改善が確認され、希少な専門家注釈を必要としない点から、実用的な法的推論システムへのスケーラブルな道筋が示唆されている。
また、最終評決ラベル以外の粒度が不足しがちな通常のデータキュレーション（例：リジェクション・サンプリング）の課題にも対処している。

Abstract

小型言語モデル（SLM）は、その効率性と低い運用コストにより、実世界への展開が有望です。しかし、その限られた能力は、整合的な法令の解釈と論理的に一貫した推論を必要とする高リスクの法的推論タスクに対しては苦戦しています。さらに、このようなタスクのためにSLMを訓練するには、高品質で簡潔な推論の軌跡（trajectory）が必要ですが、これは人手で収集するには費用が法外に高く、また標準的なリジェクション・サンプリングでは最終判断（verdict）の先に粒度（granularity）がないため収集やキュレーションが困難です。これらの課題に対処するために、我々は {LegalDrill} を提案します。これは診断駆動型の合成（synthesis）フレームワークであり、熟達した教師（teacher）からきめ細かなプロンプトによって推論の軌跡を抽出し、反復的に洗練します。その後、自分自身の省察（self-reflective）による検証を用いて、SLMの学習者（student）にとって最も効果的なデータを適応的に選択します。得られたデータは、教師あり微調整（supervised fine-tuning）および直接的選好最適化（direct preference optimization）を通じてSLMの訓練を可能にします。複数の法的ベンチマークに関する大規模な実験の結果、{LegalDrill} は、希少な専門家注釈を必要とせずに、代表的なSLMの法的推論能力を大幅に強化することが示されました。これにより、実用的な法的推論システムに向けたスケーラブルな道筋が開かれます。