エージェント型の法情報収集とルーブリック誘導最適化による判決文生成の向上

arXiv cs.CL / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、判決文生成における法情報の検索と推論品質の両方を改善することで、LLMによる判決文生成を高める統合フレームワークJudge-R1を提案している。
Agentic Legal Information Collectionとして、動的な計画エージェントを用い、複数の情報源から正確な法令や判例を取得する仕組みを導入している。
Rubric-Guided Optimizationでは、GRPOを用いた強化学習段階と包括的な法的報酬関数により、司法基準や論理的推論への整合性を強めている。
JuDGEベンチマークでの実験では、既存のRAGや教師ありファインチューニングのベースラインに比べ、法的正確性と生成品質の両面でJudge-R1が優れたと報告されている。
取りこぼしがちな証拠の想起、存在しない法令のハルシネーション、論理的に破綻した法的推論といった典型的な失敗モードへの対処が目的である。