CALRK-Bench：韓国法における文脈を考慮した法的推論の評価

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、単なる規則の暗記ではなく、文脈を考慮した法的推論を評価するための新しい韓国法ベンチマーク「CALRK-Bench」を提案する。
モデルに対して、(1) 法的規範の時間的な妥当性を特定すること、(2) 事例を判断するための十分な法的情報が存在するかを判断すること、(3) 法的判断がなぜ変化するのかを説明すること、という3つの能力をテストする。
データセットは韓国の法的先例および法律相談記録から構築され、評価の妥当性が確保されるよう法曹専門家によって検証されている。
実験の結果、最新の大規模言語モデルであってもこれらの文脈依存タスクでは十分に性能が出ず、法的推論における現在のLLMの能力のギャップが明らかになった。
著者らは、法律分野における文脈理解をより厳密に評価するための「ストレステスト」として、コードを公開している。

要旨: 法的推論には、法規の適用だけでなく、それらの法規が機能する文脈の理解も必要である。しかし、既存の法的ベンチマークは主に、固定された規範の下での規則適用を評価することに重点を置いており、そのため、法的判断が変化する状況や、複数の規範が相互に作用する状況を捉えられていない。本研究では、韓国の法制度に基づく、文脈に応じた法的推論のベンチマークであるCALRK-Benchを提案する。CALRK-Benchは、モデルが法的規範の時間的妥当性を特定できるか、特定の事例に対して十分な法的情報が利用可能かを判断できるか、そして法的判断の変化の背後にある理由を理解できるかを評価する。データセットは法的先例および法律相談記録から構築され、法学の専門家によって妥当性が確認されている。実験結果は、最近の大規模言語モデルであっても、これら3つの課題において一貫して低い性能しか示さないことを明らかにした。CALRK-Benchは、法的知識の単純な暗記ではなく、文脈に応じた法的推論を評価するための新しいストレステストを提供する。コードは https://github.com/jhCOR/CALRKBench で公開している。