概要: 大規模言語モデルは法律分野での応用が期待されますが、最先端モデルを導入するには、コスト、レイテンシ、データのプライバシーに関する懸念があります。そこで、サブ10Bパラメータのモデルが実用的な代替になり得るかを評価するために、3つの法律ベンチマーク(ContractNLI、CaseHOLD、ECtHR)に対して、5つのプロンプト戦略(直接、チェイン・オブ・ソート、少数ショット、BM25 RAG、密なRAG)を用い、9つのモデルをテストしました。各構成につき3つのランダムシードで合計405の実験を行った結果、専門家混合(Mixture-of-Experts)モデルで、3Bパラメータのみを活性化させる場合に平均精度でGPT-4o-miniと一致し、さらに法的判旨の識別ではGPT-4o-miniを上回ることが分かりました。そして、パラメータ数の多寡よりも、アーキテクチャと学習品質がより重要であることが示されました。最大のモデル(9Bパラメータ)は全体として最も成績が悪い結果でした。チェイン・オブ・ソートによるプロンプトは課題依存が強く、契約の含意(entailment)を改善する一方で、多肢選択式の法律推論を悪化させます。これに対し、少数ショットによるプロンプトは最も一貫して有効な戦略として現れました。RAGにおけるBM25と密な検索を比較すると、ほぼ同一の結果が得られ、ボトルネックは検索品質そのものではなく、取得した文脈を言語モデルがどれだけ活用できるかにあることが示唆されます。すべての実験はクラウド推論APIで実施され、総コストは62ドルでした。これは、専用のGPU基盤がなくても、厳密なLLM評価が実現可能であることを示しています。
小さな言語モデルは法的文書について推論できるか?比較研究
arXiv cs.AI / 2026/3/30
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本研究では、法的ベンチマーク3種類(ContractNLI、CaseHOLD、ECtHR)に対して、10B未満のパラメータを持つ9つの言語モデルを評価し、小規模モデルが法用途において最先端システムの代替になり得るかを検証する。




