インド向けリーガル支援のための大規模言語モデルの軽量ドメイン適応

arXiv cs.CL / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、インドにおける法的支援の枠組みとして Legal Assist AI を提案し、正確な法情報へのアクセスや認知が限られている点に対処する。
  • RAG(Retrieval-Augmented Generation)と戦略的なプロンプト設計を組み合わせることで、8Bパラメータの量子化Llama 3.1モデルが、はるかに大きい175BパラメータのGPT-3.5 Turboを法領域で上回ることを示している。
  • この手法は、600件超の高品質かつ最新のインドの法令ドキュメント(インド憲法、さらに新たに制定されたBharatiya Nyaya Sanhita(BNS)やBharatiya Nagarik Suraksha Sanhita(BNSS)など)に依拠している。
  • All-India Bar Examination(AIBE)ベンチマークでは60.08%を達成し、GPT-3.5 Turboの58.72%を上回るため、法的Q&Aにおける実用的な有効性が示唆される。
  • 架組みは幻覚(hallucinations)を抑制できると報告され、さらにParameter Efficiency Index(PEI)を導入して、8Bモデルが175Bのベースラインより22倍パラメータ効率が高いことを示し、小型のドメイン適応モデルの価値を裏付けている。

Abstract

インドでは、一般市民が法的支援を受けるためのアクセスに重大なギャップがあることが観察されている。多くの市民は、適切な法的情報へのアクセスの制限や認知度の不足によって、自身の法的権利を十分に活用できていない。本論文は、インド領域において法的支援を提供するために設計された、高効率な枠組みである Legal Assist AI を導入する。中核となる貢献は、小型の8ビリオン(80億)パラメータの量子化モデル(Llama 3.1)が、領域特化型の性能においていかに優れた結果を達成できるかを示す枠組みである。この有効な性能は、高品質で最新の、600以上の法律文書からなるコーパスを基盤として、戦略的なプロンプトエンジニアリングと Retrieval-Augmented Generation(RAG)システムを統合することで実現されている。このコーパスには、インド憲法が含まれており、さらに重要なのは、新たに制定された Bharatiya Nyaya Sanhita(BNS)や Bharatiya Nagarik Suraksha Sanhita(BNSS)などが含まれている点である。さらに、All-India Bar Examination(AIBE)のベンチマークで60.08 ext%のスコアを達成することで、RAG に基づく専門的アプローチが非常に高い効率性と有効性を備えていることが確認された。これは、175ビリオン・パラメータの GPT-3.5 Turbo の58.72 ext%のスコアを上回っている。また、枠組みが実運用上の重要な要件である、ハルシネーションの事例を適切に管理し軽減できることも観察された。さらに、8B モデルが 175B 基準モデルに比べて 22 倍もパラメータ効率に優れていること、ひいては小型の領域適応モデルの可能性を裏付けることを示すための、パラメータ効率指数(PEI)も導入する。