LegalBench-BR: A Benchmark for Evaluating Large Language Models on Brazilian Legal Decision Classification

arXiv cs.CL / 4/22/2026

📰 NewsModels & Research

Key Points

  • LegalBench-BR は、ブラジル(サンタカタリーナ州TJSC)の判決文を対象にした初の公開ベンチマークで、5つの法律分野での分類性能を評価します。
  • データは3,105件の控訴手続きからなり、DataJud API(CNJ)経由で収集され、LLM支援によるラベル付けとヒューリスティック検証で注釈されています。
  • class-balanced テストでは、0.3%のみのパラメータ更新である BERTimbau-LoRA が 87.6% accuracy と 0.87 macro-F1 を達成し、Claude 3.5 Haiku や GPT-4o mini を大きく上回りました。
  • 特に行政法(administrativo)では商用LLMが極端に低いF1(GPT-4o mini:0.00、Claude:0.08)となる一方、微調整済みモデルはF1=0.91で、領域適応の効果が明確に示されています。
  • 商用汎用LLMは民法(civel)への体系的バイアスが見られ、曖昧クラスの識別に失敗しますが、ドメイン適応のファインチューニング(LoRA)はこの問題を解消し、コンシューマGPUでの学習でもギャップを埋められると結論づけています。

Abstract

We introduce LegalBench-BR, the first public benchmark for evaluating language models on Brazilian legal text classification. The dataset comprises 3,105 appellate proceedings from the Santa Catarina State Court (TJSC), collected via the DataJud API (CNJ) and annotated across five legal areas through LLM-assisted labeling with heuristic validation. On a class-balanced test set, BERTimbau-LoRA, updating only 0.3% of model parameters, achieves 87.6% accuracy and 0.87 macro-F1 (+22pp over Claude 3.5 Haiku, +28pp over GPT-4o mini). The gap is most striking on administrativo (administrative law): GPT-4o mini scores F1 = 0.00 and Claude 3.5 Haiku scores F1 = 0.08 on this class, while the fine-tuned model reaches F1 = 0.91. Both commercial LLMs exhibit a systematic bias toward civel (civil law), absorbing ambiguous classes rather than discriminating them, a failure mode that domain-adapted fine-tuning eliminates. These results demonstrate that general-purpose LLMs cannot substitute for domain-adapted models in Brazilian legal classification, even when the task is a simple 5-class problem, and that LoRA fine-tuning on a consumer GPU closes the gap at zero marginal inference cost. We release the full dataset, model, and pipeline to enable reproducible research in Portuguese legal NLP.