要旨: 本論文では、スパースMoEバックボーンを活用し、十分に代表されていない言語に対するデジタル・ディバイドの解消を目的とする、アプリケーション駆動型のオープンソース・アラビア語LLMであるArabic-DeepSeek-R1を紹介し、Open Arabic LLM Leaderboard(OALL)全体にわたって新たなSOTAを確立する。提案する4段階のCoT蒸留スキームでは、アラビア語に特化した言語的検証と、地域の倫理規範を統合し、汚染を制御した372Mトークンの80/20アラビア語—英語トレーニング混合データを用いる。Arabic-DeepSeek-R1は、7つのベンチマークからなるOALLスイートにおいて最高の平均スコアを達成し、さらに、SOTAまたはほぼSOTAを確立する。具体的には、文法に焦点を当てたMadinahQAで優勢な結果を示し(GPT-5.1およびOALLリーダーの両方を大幅に上回る)、安全性志向のAraTrust、多能的なAlGhafa、そして検索強化型のALRAGEでも支配的な成績を示す。これらの結果は、スパースMoEアーキテクチャと、明示的なアラビア語の言語チェックを伴う文化的に情報付けされたCoT蒸留、および戦略的なバイリンガル・データのキュレーションを組み合わせることで、オープンソースで適応したモデルが、多数のベンチマークにおいて、包括的な言語固有タスクを評価するプロプライエタリなフロンティア・システムGPT-5.1を体系的に上回れることを示している。これは、アラビア語LLMにおけるそのような実証として初めてのものである。これらの知見は、現在のLLMエコシステムにおけるアラビア語の性能不足の多くが、アーキテクチャ上の制約というよりも過小な専門化に起因していること、そして、オープンな推論モデルをパラメータ効率よく適応させることで、大規模な工業的事前学習コストなしにブレークスルーとなるSOTA性能を達成し得ることを示している。Arabic-DeepSeek-R1は、主権的およびドメイン固有の言語技術に向けた、検証済みで再現可能な枠組みを確立し、スパースMoEバックボーンを戦略的かつ文化に根ざして適応させることが、低リソース言語に対する標準化ベンチマークで記録的な性能を達成するための、実行可能で費用対効果の高い道筋になることを示す。
スパースMoEファインチューニングと思考連鎖蒸留による最先端のアラビア語言語モデリング
arXiv cs.CL / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、スパースなミクスチャ・オブ・エキスパート(MoE)バックボーンに基づく、アプリケーション志向のオープンソース・アラビア語LLM「Arabic-DeepSeek-R1」を紹介し、Open Arabic LLM Leaderboard(OALL)において新たな最先端性能を達成したと主張している。
- 学習には、アラビア語固有の言語的検証と、地域に根ざした倫理規範を取り入れた、4フェーズの思考連鎖(CoT)蒸留手法を提示している。
- 学習は、データ漏洩の抑制とベンチマーク妥当性の向上を目的として、80/20のアラビア語-英語比率で構成された汚染管理済みの372Mトークン混合データとして説明されている。
- 報告された結果では、Arabic-DeepSeek-R1が7つのOALLベンチマークにまたがる平均スコアで最高値を達成しており、文法に焦点を当てたMadinahQAで大きな改善を見せるほか、安全性(AraTrust)、多能力(AlGhafa)、検索拡張(ALRAGE)評価でも強い性能を示している。
- 著者らは、LLMエコシステムにおけるアラビア語の歴史的な性能ギャップは、根本的なアーキテクチャ上の限界というよりも、過小な専門化によるところが大きいと論じており、パラメータ効率の高い適応を、低リソース言語に対する費用対効果の高い最上位結果への道筋として位置づけている。


