LegalBench-BR: A Benchmark for Evaluating Large Language Models on Brazilian Legal Decision Classification
arXiv cs.CL / 4/22/2026
📰 NewsModels & Research
Key Points
- LegalBench-BR は、ブラジル(サンタカタリーナ州TJSC)の判決文を対象にした初の公開ベンチマークで、5つの法律分野での分類性能を評価します。
- データは3,105件の控訴手続きからなり、DataJud API(CNJ)経由で収集され、LLM支援によるラベル付けとヒューリスティック検証で注釈されています。
- class-balanced テストでは、0.3%のみのパラメータ更新である BERTimbau-LoRA が 87.6% accuracy と 0.87 macro-F1 を達成し、Claude 3.5 Haiku や GPT-4o mini を大きく上回りました。
- 特に行政法(administrativo)では商用LLMが極端に低いF1(GPT-4o mini:0.00、Claude:0.08)となる一方、微調整済みモデルはF1=0.91で、領域適応の効果が明確に示されています。
- 商用汎用LLMは民法(civel)への体系的バイアスが見られ、曖昧クラスの識別に失敗しますが、ドメイン適応のファインチューニング(LoRA)はこの問題を解消し、コンシューマGPUでの学習でもギャップを埋められると結論づけています。
Related Articles

Autoencoders and Representation Learning in Vision
Dev.to

Google Stitch 2.0: Senior-Level UI in Seconds, But Editing Still Breaks
Dev.to
Context Bloat in AI Agents
Dev.to

We open sourced the AI dev team that builds our product
Dev.to

Intel LLM-Scaler vllm-0.14.0-b8.2 released with official Arc Pro B70 support
Reddit r/artificial