インドにおける構造化リーガル文書生成:VidhikDastaavejによるモデル非依存のラッパー手法

arXiv cs.CL / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、133カテゴリにわたるインドの私的な法的文書を対象とした、匿名化された大規模データセット「VidhikDastaavej」を導入し、長文の法的起草研究において公開リソースの不足を埋めることを目的としている。
  • セクション計画とセクションごとの生成を、検索(retrieval)ベースのプロンプトを用いて分離する、構造化リーガル文書生成のためのモデル非依存ラッパー(Model-Agnostic Wrapper: MAW)を提案する。
  • このアプローチは特定のLLMに依存しないよう設計されており、オープンソース/クローズドソースの双方のモデルで利用できる。
  • 字句(lexical)、意味(semantic)、LLMベース、そして専門家/アノテータ主導の評価指標—アノテータ間一致(inter-annotator agreement)を含む—を通じた評価により、MAWは微調整(fine-tuned)のベースラインよりも、事実の正確性、一貫性、網羅性を向上させることが示される。
  • 本研究は、新たなベンチマークデータセットと、汎用化可能な枠組みの両方を提供し、インドの文脈におけるLegal AIおよび構造化リーガルテキスト生成研究を加速することを目指している。