BenGER:ドイツの法律タスクをエンドツーエンドでベンチマークするための共同Webプラットフォーム
arXiv cs.CL / 2026/4/16
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- BenGERは、タスク設計から指標ベースの評価まで、ドイツの法律推論に関するLLMのエンドツーエンドベンチマークを支えるオープンソースの共同Webプラットフォームとして紹介される。
- このフレームワークは、専門家によるアノテーションのワークフロー、設定可能なLLM実行、さらに語彙的・意味的・事実的・審判(ジャッジ)ベースの複数の評価アプローチを統合する。
- BenGERは、ベンチマークのパイプラインを別々のスクリプトやプラットフォームに分割するのではなく、1つのシステム内に保持することで、透明性と再現性を高めることを目的としている。
- テナント分離とロールベースのアクセス制御により、複数組織でのプロジェクトを可能にし、必要に応じて、アノテータに対して形成的で参照に根差したフィードバックを提供できる。
- 著者らは、ベンチマーク作成から分析までをカバーするライブデプロイメントのデモを計画しており、プラットフォームの実践的な共同利用を示す。




