日本の司法試験記述式課題におけるLLMのオープンエンドな法的推論の専門家評価

arXiv cs.AI / 2026/4/28

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、マーク式ベンチマークだけでなく、日本の司法試験の「記述式」に相当する課題を通じて、LLMのオープンエンドな法的推論能力を評価する。
  • 日本の管轄に向けた最初のデータセットとして位置づけられ、長文の記述から複数の法的争点を見つけ、自由記述で構造化した法的主張を作成する出題形式を基に構築されている。
  • 法律の専門家がLLMの生成回答を手作業で評価し、法的推論におけるモデルの限界や課題を明らかにする。
  • さらに、幻覚(ハルシネーション)についても手作業で分析し、モデルが法令や先例に裏付けられない内容を「いつ」「どのように」混入するかを特徴づける。
  • 実際の試験問題、モデル生成の回答、専門家評価を合わせることで、日本の法分野における現在のLLMの到達点(マイルストーン)を示し、データセットと関連リソースをオンラインで公開する予定が述べられている。

概要: 大規模言語モデル(LLM)は、司法試験の選択式問題を含む法科ベンチマークにおいて強い性能を示している。しかし、現実的な状況におけるオープンエンドな法的推論を生成する能力は、十分に検討されていない。特に、我々の知る限り、日本語の文脈においてこの問題に取り組む先行研究やデータセットは存在しない。
 本研究では、日本の法域におけるLLMのオープンエンドな法的推論能力を評価することを目的とした最初のデータセットを提示する。このデータセットは、日本の司法試験の記述式(筆記)問題に基づいている。そこでは受験者が長文の叙述から複数の法的争点を特定し、自由記述形式で構造化された法的主張を構成することが求められる。我々の主要な貢献は、法律の専門家によるLLMが生成した応答の手動評価であり、その結果として法的推論における限界と課題が明らかになる。さらに、先例や法律により裏づけられていない内容をモデルがいつ、どのように導入するのかを特徴づけるために、幻覚(ハルシネーション)に関する手動分析も実施した。
 実際の試験問題、モデルが生成した応答、および専門家による評価は、日本の法領域における現在のLLMの到達点(マイルストーン)を示している。我々のデータセットおよび関連する資源はオンラインで公開する予定である。