BenGER:ドイツの法律タスクをエンドツーエンドでベンチマークするための共同Webプラットフォーム

arXiv cs.CL / 2026/4/16

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • BenGERは、タスク設計から指標ベースの評価まで、ドイツの法律推論に関するLLMのエンドツーエンドベンチマークを支えるオープンソースの共同Webプラットフォームとして紹介される。
  • このフレームワークは、専門家によるアノテーションのワークフロー、設定可能なLLM実行、さらに語彙的・意味的・事実的・審判(ジャッジ)ベースの複数の評価アプローチを統合する。
  • BenGERは、ベンチマークのパイプラインを別々のスクリプトやプラットフォームに分割するのではなく、1つのシステム内に保持することで、透明性と再現性を高めることを目的としている。
  • テナント分離とロールベースのアクセス制御により、複数組織でのプロジェクトを可能にし、必要に応じて、アノテータに対して形成的で参照に根差したフィードバックを提供できる。
  • 著者らは、ベンチマーク作成から分析までをカバーするライブデプロイメントのデモを計画しており、プラットフォームの実践的な共同利用を示す。