IslamicMMLU:イスラム知識に基づくLLM評価のためのベンチマーク

arXiv cs.CL / 2026/3/26

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、クルアーン、ハディース、フィクフにまたがってイスラム知識に関するLLMを評価するための新しいベンチマーク「IslamicMMLU」を紹介する。これは10,013問の多肢選択問題から構成される。
  • このベンチマークは3つのトラックに整理され、各トラックには複数の問題タイプが含まれている。これにより、異なる推論能力や知識の扱い方を評価できる。
  • 26のLLMに対する初期評価では、モデル間で大きな性能差が見られる。総合平均正答率は39.8%から93.8%の範囲で変動し、クルアーン・トラックが最も幅広いばらつきを示す。
  • フィクフの構成要素には、新たなマドハブ(法学派)バイアス検出タスクが含まれており、思考(学派)ごとにモデルがどのような嗜好を持つかを測定する。
  • 著者らは評価コードと公開リーダーボードを提供している。そこには、アラビア語特化モデルは一貫性に欠け、概してフロンティアモデルよりも性能が低いことが示されている。

要旨: 大規模言語モデルはイスラム知識についてますます相談されている一方で、主要なイスラム諸分野にわたる性能を包括的に評価するベンチマークは存在しません。我々は、3つのトラック(Quran(2,013問)、Hadith(4,000問)、Fiqh(法学、4,000問))にまたがる10,013問の多肢選択問題からなるベンチマークであるIslamicMMLUを導入します。各トラックは、イスラム知識のさまざまな側面を扱うLLMの能力を検討するために複数の種類の問題で構成されています。このベンチマークは、LLMを評価するためのIslamicMMLU公開リーダーボードを作成するのに用いられ、初期評価として26のLLMを評価しました。3つのトラックにわたるそれらの平均正答率は、Gemini 3 Flashによると39.8\%から93.8\%の範囲でした。Quranトラックは最も幅広い範囲(99.3\%から32.4\%)を示し、一方でFiqhトラックには、新規のマドハブ(イスラム法学の学派)バイアス検出タスクが含まれており、モデル間で思考様式(学派)の嗜好が異なることが明らかになります。アラビア語特化モデルは混在した結果を示しますが、いずれもフロンティアモデルより低い性能でした。評価コードとリーダーボードは公に利用可能にします。