LegalBench-BR:ブラジルの法的判断分類を評価するためのベンチマーク

arXiv cs.CL / 2026/4/22

📰 ニュースModels & Research

要点

  • LegalBench-BR は、ブラジル(サンタカタリーナ州TJSC)の判決文を対象にした初の公開ベンチマークで、5つの法律分野での分類性能を評価します。
  • データは3,105件の控訴手続きからなり、DataJud API(CNJ)経由で収集され、LLM支援によるラベル付けとヒューリスティック検証で注釈されています。
  • class-balanced テストでは、0.3%のみのパラメータ更新である BERTimbau-LoRA が 87.6% accuracy と 0.87 macro-F1 を達成し、Claude 3.5 Haiku や GPT-4o mini を大きく上回りました。
  • 特に行政法(administrativo)では商用LLMが極端に低いF1(GPT-4o mini:0.00、Claude:0.08)となる一方、微調整済みモデルはF1=0.91で、領域適応の効果が明確に示されています。
  • 商用汎用LLMは民法(civel)への体系的バイアスが見られ、曖昧クラスの識別に失敗しますが、ドメイン適応のファインチューニング(LoRA)はこの問題を解消し、コンシューマGPUでの学習でもギャップを埋められると結論づけています。

Abstract

私たちは、ブラジルの法文テキスト分類において言語モデルを評価するための、初の公開ベンチマークであるLegalBench-BRを導入します。データセットはサンタカタリーナ州の州裁判所(TJSC)から収集した3,105件の控訴審手続きを含み、DataJud API(CNJ)を介して取得されます。また、LLM支援によるラベリングとヒューリスティックな検証により、5つの法領域にわたって注釈が付与されています。クラスバランスされたテストセット上で、BERTimbau-LoRAは、モデルパラメータの0.3%のみを更新することで、87.6%の精度と0.87のマクロF1を達成します(Claude 3.5 Haikuに対して+22pp、GPT-4o miniに対して+28pp)。この差が最も顕著なのはadministrativo(行政法)です。このクラスではGPT-4o miniがF1 = 0.00、Claude 3.5 HaikuがF1 = 0.08ですが、一方で微調整済みモデルはF1 = 0.91を到達します。両方の商用LLMは、civel(民法)に対して体系的なバイアスを示し、曖昧なクラスを吸収するのではなく識別できておらず、その失敗モードはドメインに適応した微調整によって解消されます。これらの結果は、タスクが単純な5クラス問題であっても、一般用途のLLMはブラジルの法分類においてドメイン適応モデルの代替にはならないこと、そして消費者向けGPU上でのLoRA微調整が、限界の推論コストをゼロにしてギャップを埋めることを示しています。再現可能な研究を可能にするために、データセット、モデル、パイプラインの全てをポルトガル語の法務NLP向けに公開します。