過去2年間、インドの法的コーパスを構造化する作業をしていて、自分が作ったものを共有したいと思います。あわせて、法務NLPや低リソースのインド言語モデルに取り組んでいる方々の意見も聞かせてください。
データセットは、インド最高裁から、全25の高等裁判所(High Court)、14の裁判所(Tribunals)までの、インドの裁判案件2,000万件以上です。各案件には、構造化されたメタデータ(裁判所、法廷、日付、当事者、裁判官、引用された条項、参照された法律、事件種別)があります。さらに、全コーパスにわたって引用関係のグラフを作っており、関係は followed(従う)、distinguished(区別する)、overruled(覆す)、mentioned(言及する)として分類しています。
すべての案件は、Voyage AI(1024d dense)による埋め込みに加えて、BM25のスパースベクトルでも埋め込んでいます。さらに、23,122件の法律・制定法について、それを解釈している案件とクロスリファレンスしています。
このコミュニティの皆さんにとって面白いかもしれない点:
20M+件の案件にまたがるこの「引用ネットワーク」的なものは、少なくとも私の知る限り、インド法として最初の機械可読なものです。
グラフニューラルネットワークの研究、法的なアウトカム予測、または「どの判決が最も引用されていて、どれが覆されているのか」に関する影響分析に役立つ可能性があります。
ほとんどのインド言語のNLPコーパスは、会話文やニュース文です。法的テキストは、まったく別のレジスタです。形式的で、正確で、領域特化です。翻訳サービスから得られるバイリンガル対(対訳)は、形式的かつ法務領域でインド言語モデルをファインチューニングする際に役立つかもしれません。
メタデータ抽出パイプラインは、非構造化の判決文テキストから、裁判官、弁護士、当事者、条項、法律、日付を特定します。regex、ヒューリスティック、およびLLMベースの抽出を組み合わせて構築しました。構造化された出力は、法務NERモデルの学習データとして使えるはずです。
インドの裁判判決は長いです。中央値は約3,000語で、5万語を超えるものもあります。
法務領域で検索拡張生成(RAG)をベンチマークしている方がいれば、このコーパスと引用グラフは評価環境として機能し得ます。引用関係には真値(ground truth)が存在します。つまり、案件Aが案件Bを引用しているなら、Aの法的論点について尋ねたときに良いリトリーバーはBを提示できるべきです。
データはAPI経由と、JSONおよびParquetでのバルクエクスポートで利用可能です。インドの裁判判決はインド法の下でパブリックドメインなので、研究利用における著作権の問題はありません。
制約について率直に言うと、カバー率の中心は主に英語テキストです(最高裁のものを除く:彼らには3〜4種類の翻訳言語コピーがあります)。というのも、インドの高等裁判所(High Court)は英語で命令を出すためです。地域言語のデータは、元の地域言語の判決文からではなく、私たちの翻訳サービスから取得しています。
メタデータ抽出の精度は裁判所によって異なります。最高裁(SC)と主要な高等裁判所(major HCs)はよりクリーンですが、小規模な裁判所(minor tribunals)では入力がより散らかっています。引用グラフはヒューリスティックに加えてLLM支援でも抽出しており、引用抽出の精度(precision)は概算で約90〜95%ですが、取り扱い(followed/distinguished/overruled/mentioned)の分類はそれより低くなります。2,000万件すべての案件で完全なメタデータが揃っているわけではなく、カバー率が最も高いのは2007年以降の判決です。
法務NLP、インド言語モデル、またはグラフベースの法務分析に取り組んでいる方からのご意見をぜひ聞きたいです。このようなデータセットから、あなたにとって最も役立つのはどんな点でしょうか?
deets at vaquill
[link] [comments]



