アラビア語ベンチマークは信頼できるのか?LLM評価におけるQIMMAの品質優先アプローチ

arXiv cs.CL / 2026/4/7

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文では、ベンチマークの品質を、既存のベンチマークをそのまま使うことに頼るのではなく、最初に重視すべき第一級のステップとして検証する、品質保証済みのアラビア語LLMリーダーボードQIMMAを紹介する。
  • QIMMAは、多モデル評価パイプラインを用いて、自動化されたLLMの判定と人手によるレビューを組み合わせ、確立されたアラビア語ベンチマークデータに潜む体系的な問題を特定し修正する。
  • 得られた評価スイートは、複数の領域とタスクをカバーし、52k件超のサンプルを含む。根幹は主に母語のアラビア語コンテンツであり(コード課題は言語に依存しないものとして扱う)。
  • QIMMAは、透明性のある実装(LightEval、EvalPlus)によって再現性を重視し、コミュニティが拡張できるようにサンプルごとの推論出力を公開リリースすることで支援する。