QIMMAは、モデルを評価する前にベンチマークを検証し、報告されたスコアがLLMにおけるアラビア語能力を実際に反映していることを保証します。
アラビア語のLLM評価を追跡しているなら、おそらく次のような緊張感に気づいているはずです。つまり、ベンチマークやリーダーボードの数が急速に増えている一方で、私たちは本当に、自分たちが測っていると思っているものを測れているのでしょうか?
私たちは、この問いに体系的に答えるために QIMMA قمّة(アラビア語で「サミット」)を構築しました。既存のアラビア語ベンチマークをそのまま集約してそれらにモデルを適用するのではなく、いかなる評価が行われる前にも、厳密な品質検証パイプラインを 先に適用しました。その結果は衝撃的でした。広く使われ、評価の高いアラビア語ベンチマークでさえ、評価結果を静かに損なってしまう体系的な品質問題を含んでいるのです。
本記事では、QIMMAとは何か、どのように構築したのか、どのような問題が見つかったのか、そしてクリーニング後にモデルのランキングがどう見えるのかを説明します。
問題:アラビア語NLP評価は分断され、未検証である
アラビア語は、多様な方言や文化的背景を持つ4億人以上の人々に話されていますが、それにもかかわらず、アラビア語NLPの評価環境は分断されたままです。この取り組みを後押しした主要な課題がいくつかあります:
翻訳の問題。 多くのアラビア語ベンチマークは英語からの翻訳です。これにより分布のズレが生じます。英語では自然に感じる問いでも、アラビア語では不自然だったり文化的に噛み合っていなかったりし、その結果、ベンチマークデータがアラビア語が自然に使われる実態を十分に反映できなくなります。
品質検証の欠如。 ネイティブのアラビア語ベンチマークでさえ、厳密な品質チェックなしで公開されることが少なくありません。アノテーションの不整合、誤った正解(gold answer)、エンコーディングの誤り、そしてグラウンドトゥルースラベルにおける文化的バイアスは、確立されたリソースでもすべて報告されています。
再現性のギャップ。 評価スクリプトやサンプルごとの出力が公開されることは稀で、そのため結果の監査や、過去の研究を土台にした発展が難しくなります。
カバレッジの分断。 既存のリーダーボードは個別のタスクや狭い領域をカバーするにとどまっており、モデルの総合的な評価を難しくしています。
QIMMAが既存のプラットフォームに対してどこに位置づくかを示すと:
| Leaderboard | Open Source | Native Arabic | Quality Validation | Code Eval | Public Outputs |
|---|---|---|---|---|---|
| OALL v1 | ✅ | Mixed | ❌ | ❌ | ✅ |
| OALL v2 | ✅ | Mostly | ❌ | ❌ | ✅ |
| BALSAM | Partial | 50% | ❌ | ❌ | ❌ |
| AraGen | ✅ | 100% | ❌ | ❌ | ❌ |
| SILMA ABL | ✅ | 100% | ✅ | ❌ | ✅ |
| ILMAAM | Partial | 100% | ✅ | ❌ | ❌ |
| HELM Arabic | ✅ | Mixed | ❌ | ❌ | ✅ |
| ⛰ QIMMA | ✅ | 99% | ✅ | ✅ | ✅ |
QIMMAは、次の5つの特性をすべて兼ね備える唯一のプラットフォームです。オープンソース、主にネイティブアラビア語のコンテンツ、体系的な品質検証、コード評価、そしてパブリックなサンプルごとの推論出力。
⛰ QIMMAには何が入っているの?
QIMMAは、14のソースベンチマークから 109のサブセットを統合し、7つの領域にまたがる、52,000件超のサンプルから成る統一的な評価スイートを構成しています:
| 領域 | ベンチマーク | タスク種別 |
|---|---|---|
| 文化 | AraDiCE-Culture, ArabCulture, PalmX | MCQ |
| STEM | ArabicMMLU, GAT, 3LM STEM | MCQ |
| 法律 | ArabLegalQA, MizanQA | MCQ, QA |
| 医療 | MedArabiQ, MedAraBench | MCQ, QA |
| 安全 | AraTrust | MCQ |
| 詩 & 文学 | FannOrFlop | QA |
| コーディング | 3LM HumanEval+, 3LM MBPP+ | Code |
この設計について、いくつか際立つ点があります:
- 99%が母語のアラビア語コンテンツ。 例外はコード評価のみで、コード評価は本質的に言語に依存しません。
- コード評価を備えた初のアラビア語リーダーボード。 QIMMAはHumanEval+とMBPP+のアラビア語に適応したバージョンを統合し、アラビア語の問題文によってコーディング能力を評価できるようにしています。
- 領域とタスクの多様性。 QIMMAは、教育、統治、ヘルスケア、創造的表現、ソフトウェア開発といった実社会の能力領域を評価します。
品質検証パイプライン
これはQIMMAの方法論の核です。1つのモデルを実行する前に、すべてのベンチマークのすべてのサンプルに対して多段階の検証パイプラインを適用しました。
ステージ1:マルチモデルによる自動評価
各サンプルは、最先端のLLM2つによってそれぞれ独立に評価されました:
- Qwen3-235B-A22B-Instruct
- DeepSeek-V3-671B
両モデルには強いアラビア語能力がありますが、学習データの構成が異なるため、それらの組み合わせた判断は、どちらか一方単独よりも頑健になります。
各モデルは、各サンプルを10点満点のルーブリックに基づいて採点し、基準ごとに二値(0または1)でスコア付けします:
どちらかのモデルが、そのサンプルのスコアを7/10未満とした場合、そのサンプルは除外されます。両モデルが除外に一致したサンプルは、即座に破棄します。しかし、除外のフラグを立てたのが片方のモデルだけの場合、そのサンプルはステージ2で人手による確認に進みます。
ステージ2:人手による注釈付与とレビュー
フラグが立てられたサンプルは、文化的背景や方言に対する理解がある母語話者(ネイティブのアラビア語話者)によってレビューされます。人手による注釈者は、最終判断を次の観点から行います:
- 文化的文脈と地域差
- 方言のニュアンス
- 主観的な解釈
- 自動評価では見落とし得る微妙な品質の問題
文化的に配慮が必要なコンテンツでは、「正しさ」はアラブの各地域によって実際に変わり得るため、複数の視点が考慮されます。
⚠️ 見つかったこと:体系的な品質問題
パイプラインは、ベンチマーク全体で繰り返し発生する品質問題を明らかにしました。単発の誤りではなく、ベンチマークが当初どのように構築されたかにおける欠落を反映する体系的なパターンです。
数字で見る
| ベンチマーク | 総サンプル数 | 破棄 | 破棄率 |
|---|---|---|---|
| ArabicMMLU | 14,163 | 436 | 3.1% |
| MizanQA | 1,769 | 41 | 2.3% |
| PalmX | 3,001 | 25 | 0.8% |
| MedAraBench | 4,960 | 33 | 0.7% |
| FannOrFlop | 6,984 | 43 | 0.6% |
| ArabCulture | 3,482 | 7 | 0.2% |
| MedArabiQ | 499 | 1 | 0.2% |
| GAT | 13,986 | 1 | ~0.0% |
| 3LM STEM | 2,609 | 1 | ~0.0% |
| AraDiCE-Culture | 180 | 0 | 0.0% |
| ArabLegalQA | 79 | 0 | 0.0% |
| AraTrust | 522 | 0 | 0.0% |
見つかった問題の分類(タクソノミー)
⚖️ 解答品質
誤った、または一致していないゴールドのインデックス、事実に反する誤答、欠落した、もしくはそのままのテキストによる解答。
テキストおよびフォーマット品質
文字化けした、または判読不能なテキスト、スペルや文法の誤り、重複サンプル。
文化的配慮
ステレオタイプの強化や、多様なコミュニティに関する単一的な一般化。
ゴールド解答の準拠性
評価プロトコルに対するゴールド解答の不一致。
コードベンチマーク:別の種類の質の高い作業
コードベンチマークには、別の介入が必要でした。サンプルを捨てるのではなく、私たちは3LMのアラビア語版におけるHumanEval+とMBPP+のアラビア語問題文を洗練させました。その際、タスク識別子、参照解答、テストスイートは完全に変更せずそのまま残しました。
改変率は驚くほどでした:
| ベンチマーク | 総プロンプト数 | 改変あり | 変更なし | 改変率 |
|---|---|---|---|---|
| 3LM HumanEval+ | 164 | 145 | 19 | 88% |
| 3LM MBPP+ | 378 | 308 | 70 | 81% |
改変は5つのカテゴリに分類されました:
- 言語的な洗練 :自然な現代標準アラビア語へ正規化し、命令形のスタイルを一貫させる
- 明確さの改善 :曖昧な指示や不明確な制約を修正する
- 一貫性の正規化 :数学的な用語、句読点、例の書式を標準化する
- 構造上の修正 :壊れた三重引用符付き文字列、インデントの誤り、破損したテキスト断片を修正する
- 意味的な洗練 :範囲が包含/排他的のどちらかを明確にし、タスクの意図を保つ
⚙️ 評価設定
評価フレームワーク
QIMMAでは、評価フレームワークとしてLightEval、EvalPlus、およびFannOrFlopを使用しています。これは、一貫性、複数言語コミュニティでの採用状況、再現性を重視して選ばれました。
タスク種別ごとの指標
| タスク種別 | 指標 | ベンチマーク |
|---|---|---|
| MCQ | 正規化された対数尤度精度 | AraDiCE-Culture, ArabicMMLU, ArabCulture, PalmX, 3LM STEM, MedArabiQ, GAT, MedAraBench, AraTrust |
| マルチセレクトMCQ | 正解選択肢への確率質量 | MizanQA |
| 生成型QA | F1 BERTScore(AraBERT v02) | MedArabiQ, ArabLegalQA, FannOrFlop |
| コード | Pass@1 | 3LM HumanEval+, 3LM MBPP+ |
プロンプトテンプレート
QIMMAは、質問形式によってプロンプトを標準化しており、6種類のテンプレートタイプがあります:
すべてのプロンプトはアラビア語です。MizanQAおよびArabCultureについては、元の論文にあるベンチマーク固有のシステムプロンプトが保持されています。
リーダーボードの結果
2026年4月時点の結果。評価済みモデル上位10件を対象としています。現在の順位については、ライブリーダーボードをご覧ください。
| 順位 | モデル | 平均 | AraDiCE-Culture | ArabicMMLU | ArabCulture | PALMX | 3LM STEM | AraTrust | MizanQA | MedArabiQ | ArabLegalQA | GAT | MedAraBench | HumanEval+ | MBPP+ | FannOrFlop | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | Qwen/Qwen3.5-397B-A17B-FP8 | 68.06 | 82.78 | 77.54 | 61.75 | 83.91 | 88.67 | 90.04 | 73.36 | 47.30 | 54.94 | 55.89 | 55.89 | 47.97 | 67.68 | 76.72 | 44.33 |
| 2 | Applied-Innovation-Center/Karnak | 66.20 | 73.33 | 80.94 | 53.49 | 81.40 | 93.10 | 89.08 | 55.92 | 55.92 | 55.78 | 71.58 | 61.06 | 54.19 | 33.54 | 64.55 | 58.91 |
| 3 | inceptionai/Jais-2-70B-Chat | 65.81 | 78.89 | 81.29 | 83.24 | 83.73 | 87.96 | 90.23 | 71.78 | 52.79 | 69.60 | 51.67 | 50.89 | 19.51 | 43.65 | 56.13 | |
| #4 | Qwen/Qwen2.5-72B-Instruct | 65.75 | 77.22 | 73.78 | 63.83 | 77.77 | 87.55 | 88.51 | 63.49 | 50.06 | 70.74 | 55.90 | 44.19 | 37.20 | 72.75 | 57.51 | |
| #5 | Applied-Innovation-Center/AIC-1 | 65.37 | 73.33 | 72.02 | 77.52 | 76.11 | 88.13 | 90.61 | 56.36 | 53.75 | 68.96 | 62.11 | 50.78 | 28.05 | 69.58 | 47.83 | |
| #6 | Qwen/Qwen3.5-122B-A10B | 64.84 | 74.44 | 73.17 | 37.78 | 81.46 | 86.18 | 86.97 | 64.01 | 47.04 | 55.11 | 50.90 | 52.49 | 65.24 | 72.43 | 60.54 | |
| #7 | Sakalti/Ultiima-72B | 64.49 | 78.33 | 72.28 | 68.79 | 76.75 | 83.70 | 89.08 | 60.44 | 44.58 | 69.12 | 46.91 | 42.25 | 39.02 | 74.07 | 57.56 | |
| #8 | meta-llama/Llama-3.3-70B-Instruct | 63.96 | 77.22 | 71.57 | 78.05 | 77.95 | 88.28 | 85.63 | 67.44 | 56.25 | 64.00 | 51.13 | 54.86 | 27.44 | 71.16 | 24.43 | |
| #9 | Qwen/Qwen2.5-32B-Instruct | 63.26 | 70.56 | 68.76 | 75.80 | 72.07 | 81.03 | 85.82 | 53.78 | 48.08 | 69.27 | 56.94 | 36.51 | 34.15 | 72.75 | 93.10 | |
| #10 | FreedomIntelligence/AceGPT-v2-32B-Chat | 61.14 | 76.67 | 70.62 | 79.79 | 74.46 | 84.88 | 86.97 | 63.89 | 49.96 | 71.46 | 56.04 | 47.32 | 23.78 | 54.50 | 15.56 |
- スケールは最高の性能を保証しません。 上位10件は32Bから397Bのパラメータ規模のモデルを含み、いくつかの中規模モデルが特定の領域ではより大きいモデルを上回っています。
- アラビア語特化モデルが文化・言語タスクで先行します。 Jais-2-70B-ChatはArabicMMLUとArabCultureで最高位であり、一方でKarnakは3LMのSTEMとArabLegalQAで首位です。
- コーディングはアラビア語特化モデルにとって最も難しい領域です。 上位のHumanEval+およびMBPP+スコアは多言語モデルが占めており、Qwen3.5-397Bが両方で先頭に立っています。
サイズと性能の関係
全体のリーダーボード(46モデル)を通して見ると、明確ではあるものの不完全なサイズと性能の相関が見えてきます。とはいえ、興味深い例外もあります:
- アラビア語特化モデルは、多くの場合、サイズが一致する多言語モデルを上回ります
- 命令チューニング済みモデルは、Qwen3を除いて、そのベースモデルに一貫して勝っています
- 一部の小規模なアラビア語特化モデル(Fanar-1-9B、ALLaM-7B)は、特定の領域では、はるかに大きい多言語モデルを上回ります
QIMMAを他とどう違うものにしているのか
QIMMAの独自の特性を要約すると:
| 特性 | 詳細 |
|---|---|
| 品質を最優先する理念 | 評価の前に検証を行い、後付けとして扱わない |
| 複数モデルによる検証 | 訓練が異なる2つのLLMに加え、人手によるレビューでフラグが立ったケースを確認 |
| ネイティブのアラビア語を99% | 翻訳によるアーティファクトをほぼ完全に回避 |
| 複数領域・複数タスク | 7つの領域、3種類のタスク(MCQ、QA、コード)、109のサブセット |
| コードの評価 | コード生成を含めた最初のアラビア語リーダーボード |
| 完全な透明性 | サンプルごとの推論出力を公開(集計スコアだけでなく) |
| LightEvalベース | 統一され、再現可能な評価用コードベース |
| 方言への配慮 | プロンプトと採点基準において、MSAと方言の違いを明示的に扱う |
リソース
- リーダーボード: QIMMA リーダーボード
- コード: GitHub
- 論文: Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation
引用
@misc{alqadi2026arabicbenchmarksreliableqimmas,
title={Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation},
author={Leen AlQadi and Ahmed Alzubaidi and Mohammed Alyafeai and Hamza Alobeidli and Maitha Alhammadi and Shaikha Alsuwaidi and Omar Alkaabi and Basma El Amel Boussaha and Hakim Hacid},
year={2026},
eprint={2604.03395},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2604.03395},
}







