LegalBench-BR:ブラジルの法的判断分類を評価するためのベンチマーク
arXiv cs.CL / 2026/4/22
📰 ニュースModels & Research
要点
- LegalBench-BR は、ブラジル(サンタカタリーナ州TJSC)の判決文を対象にした初の公開ベンチマークで、5つの法律分野での分類性能を評価します。
- データは3,105件の控訴手続きからなり、DataJud API(CNJ)経由で収集され、LLM支援によるラベル付けとヒューリスティック検証で注釈されています。
- class-balanced テストでは、0.3%のみのパラメータ更新である BERTimbau-LoRA が 87.6% accuracy と 0.87 macro-F1 を達成し、Claude 3.5 Haiku や GPT-4o mini を大きく上回りました。
- 特に行政法(administrativo)では商用LLMが極端に低いF1(GPT-4o mini:0.00、Claude:0.08)となる一方、微調整済みモデルはF1=0.91で、領域適応の効果が明確に示されています。
- 商用汎用LLMは民法(civel)への体系的バイアスが見られ、曖昧クラスの識別に失敗しますが、ドメイン適応のファインチューニング(LoRA)はこの問題を解消し、コンシューマGPUでの学習でもギャップを埋められると結論づけています。



