小さな言語モデルは法的文書について推論できるか？比較研究

arXiv cs.AI / 2026/3/30

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本研究では、法的ベンチマーク3種類（ContractNLI、CaseHOLD、ECtHR）に対して、10B未満のパラメータを持つ9つの言語モデルを評価し、小規模モデルが法用途において最先端システムの代替になり得るかを検証する。

概要: 大規模言語モデルは法律分野での応用が期待されますが、最先端モデルを導入するには、コスト、レイテンシ、データのプライバシーに関する懸念があります。そこで、サブ10Bパラメータのモデルが実用的な代替になり得るかを評価するために、3つの法律ベンチマーク（ContractNLI、CaseHOLD、ECtHR）に対して、5つのプロンプト戦略（直接、チェイン・オブ・ソート、少数ショット、BM25 RAG、密なRAG）を用い、9つのモデルをテストしました。各構成につき3つのランダムシードで合計405の実験を行った結果、専門家混合（Mixture-of-Experts）モデルで、3Bパラメータのみを活性化させる場合に平均精度でGPT-4o-miniと一致し、さらに法的判旨の識別ではGPT-4o-miniを上回ることが分かりました。そして、パラメータ数の多寡よりも、アーキテクチャと学習品質がより重要であることが示されました。最大のモデル（9Bパラメータ）は全体として最も成績が悪い結果でした。チェイン・オブ・ソートによるプロンプトは課題依存が強く、契約の含意（entailment）を改善する一方で、多肢選択式の法律推論を悪化させます。これに対し、少数ショットによるプロンプトは最も一貫して有効な戦略として現れました。RAGにおけるBM25と密な検索を比較すると、ほぼ同一の結果が得られ、ボトルネックは検索品質そのものではなく、取得した文脈を言語モデルがどれだけ活用できるかにあることが示唆されます。すべての実験はクラウド推論APIで実施され、総コストは62ドルでした。これは、専用のGPU基盤がなくても、厳密なLLM評価が実現可能であることを示しています。

米国のデータセンター投資、オフィス超えへ AI急成長で建築の主役交代

日経XTECH

AIリテラシーをどう教えるか、自分事として考える知識創造理論の内面化

日経XTECH

ナトリウムイオン電池、中国圧倒も「日本に勝機ある」／ニコンやキヤノン抜き去ったASML、AI半導体時代の水平分業先取り

日経XTECH

AIはツールから「同僚」へ、メルカリは複数エージェントが意思疎通

日経XTECH

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

小さな言語モデルは法的文書について推論できるか？比較研究

要点

関連記事

米国のデータセンター投資、オフィス超えへ AI急成長で建築の主役交代

AIリテラシーをどう教えるか、自分事として考える知識創造理論の内面化

ナトリウムイオン電池、中国圧倒も「日本に勝機ある」／ニコンやキヤノン抜き去ったASML、AI半導体時代の水平分業先取り

AIはツールから「同僚」へ、メルカリは複数エージェントが意思疎通

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

米国のデータセンター投資、オフィス超えへ AI急成長で建築の主役交代

AIリテラシーをどう教えるか、自分事として考える 知識創造理論の内面化

ナトリウムイオン電池、中国圧倒も「日本に勝機ある」／ニコンやキヤノン抜き去ったASML、AI半導体時代の水平分業先取り

AIはツールから「同僚」へ、メルカリは複数エージェントが意思疎通

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIリテラシーをどう教えるか、自分事として考える知識創造理論の内面化