IslamicMMLU：イスラム知識に基づくLLM評価のためのベンチマーク

arXiv cs.CL / 2026/3/26

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、クルアーン、ハディース、フィクフにまたがってイスラム知識に関するLLMを評価するための新しいベンチマーク「IslamicMMLU」を紹介する。これは10,013問の多肢選択問題から構成される。
このベンチマークは3つのトラックに整理され、各トラックには複数の問題タイプが含まれている。これにより、異なる推論能力や知識の扱い方を評価できる。
26のLLMに対する初期評価では、モデル間で大きな性能差が見られる。総合平均正答率は39.8%から93.8%の範囲で変動し、クルアーン・トラックが最も幅広いばらつきを示す。
フィクフの構成要素には、新たなマドハブ（法学派）バイアス検出タスクが含まれており、思考（学派）ごとにモデルがどのような嗜好を持つかを測定する。
著者らは評価コードと公開リーダーボードを提供している。そこには、アラビア語特化モデルは一貫性に欠け、概してフロンティアモデルよりも性能が低いことが示されている。

要旨: 大規模言語モデルはイスラム知識についてますます相談されている一方で、主要なイスラム諸分野にわたる性能を包括的に評価するベンチマークは存在しません。我々は、3つのトラック（Quran（2,013問）、Hadith（4,000問）、Fiqh（法学、4,000問））にまたがる10,013問の多肢選択問題からなるベンチマークであるIslamicMMLUを導入します。各トラックは、イスラム知識のさまざまな側面を扱うLLMの能力を検討するために複数の種類の問題で構成されています。このベンチマークは、LLMを評価するためのIslamicMMLU公開リーダーボードを作成するのに用いられ、初期評価として26のLLMを評価しました。3つのトラックにわたるそれらの平均正答率は、Gemini 3 Flashによると39.8\%から93.8\%の範囲でした。Quranトラックは最も幅広い範囲（99.3\%から32.4\%）を示し、一方でFiqhトラックには、新規のマドハブ（イスラム法学の学派）バイアス検出タスクが含まれており、モデル間で思考様式（学派）の嗜好が異なることが明らかになります。アラビア語特化モデルは混在した結果を示しますが、いずれもフロンティアモデルより低い性能でした。評価コードとリーダーボードは公に利用可能にします。

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

プロンプト・マーケットの規制：証券法、知的財産、そしてプロンプト・アセットの取引

Dev.to

Mercorの競合Deccan AI、25Mドル調達、インドから専門家を確保

Dev.to

IslamicMMLU：イスラム知識に基づくLLM評価のためのベンチマーク

要点

関連記事

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

プロンプト・マーケットの規制：証券法、知的財産、そしてプロンプト・アセットの取引

Mercorの競合Deccan AI、25Mドル調達、インドから専門家を確保

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer