スパースMoEファインチューニングと思考連鎖蒸留による最先端のアラビア語言語モデリング

arXiv cs.CL / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、スパースなミクスチャ・オブ・エキスパート（MoE）バックボーンに基づく、アプリケーション志向のオープンソース・アラビア語LLM「Arabic-DeepSeek-R1」を紹介し、Open Arabic LLM Leaderboard（OALL）において新たな最先端性能を達成したと主張している。
学習には、アラビア語固有の言語的検証と、地域に根ざした倫理規範を取り入れた、4フェーズの思考連鎖（CoT）蒸留手法を提示している。
学習は、データ漏洩の抑制とベンチマーク妥当性の向上を目的として、80/20のアラビア語-英語比率で構成された汚染管理済みの372Mトークン混合データとして説明されている。
報告された結果では、Arabic-DeepSeek-R1が7つのOALLベンチマークにまたがる平均スコアで最高値を達成しており、文法に焦点を当てたMadinahQAで大きな改善を見せるほか、安全性（AraTrust）、多能力（AlGhafa）、検索拡張（ALRAGE）評価でも強い性能を示している。
著者らは、LLMエコシステムにおけるアラビア語の歴史的な性能ギャップは、根本的なアーキテクチャ上の限界というよりも、過小な専門化によるところが大きいと論じており、パラメータ効率の高い適応を、低リソース言語に対する費用対効果の高い最上位結果への道筋として位置づけている。

要旨: 本論文では、スパースMoEバックボーンを活用し、十分に代表されていない言語に対するデジタル・ディバイドの解消を目的とする、アプリケーション駆動型のオープンソース・アラビア語LLMであるArabic-DeepSeek-R1を紹介し、Open Arabic LLM Leaderboard（OALL）全体にわたって新たなSOTAを確立する。提案する4段階のCoT蒸留スキームでは、アラビア語に特化した言語的検証と、地域の倫理規範を統合し、汚染を制御した372Mトークンの80/20アラビア語—英語トレーニング混合データを用いる。Arabic-DeepSeek-R1は、7つのベンチマークからなるOALLスイートにおいて最高の平均スコアを達成し、さらに、SOTAまたはほぼSOTAを確立する。具体的には、文法に焦点を当てたMadinahQAで優勢な結果を示し（GPT-5.1およびOALLリーダーの両方を大幅に上回る）、安全性志向のAraTrust、多能的なAlGhafa、そして検索強化型のALRAGEでも支配的な成績を示す。これらの結果は、スパースMoEアーキテクチャと、明示的なアラビア語の言語チェックを伴う文化的に情報付けされたCoT蒸留、および戦略的なバイリンガル・データのキュレーションを組み合わせることで、オープンソースで適応したモデルが、多数のベンチマークにおいて、包括的な言語固有タスクを評価するプロプライエタリなフロンティア・システムGPT-5.1を体系的に上回れることを示している。これは、アラビア語LLMにおけるそのような実証として初めてのものである。これらの知見は、現在のLLMエコシステムにおけるアラビア語の性能不足の多くが、アーキテクチャ上の制約というよりも過小な専門化に起因していること、そして、オープンな推論モデルをパラメータ効率よく適応させることで、大規模な工業的事前学習コストなしにブレークスルーとなるSOTA性能を達成し得ることを示している。Arabic-DeepSeek-R1は、主権的およびドメイン固有の言語技術に向けた、検証済みで再現可能な枠組みを確立し、スパースMoEバックボーンを戦略的かつ文化に根ざして適応させることが、低リソース言語に対する標準化ベンチマークで記録的な性能を達成するための、実行可能で費用対効果の高い道筋になることを示す。

Black Hat Asia

AI Business

不可視文字でマルウエア混入 GitHubなどで汚染拡大、開発基盤の信頼揺らぐ

日経XTECH

富士通がAI駆動で開発工程を自動化、ビジネスも人月型からFDE型へ

日経XTECH

LLMの理解度に関する質問

Reddit r/artificial

CursorがワイルドカードCORSを生成し続ける理由――そして修正方法

Dev.to

スパースMoEファインチューニングと思考連鎖蒸留による最先端のアラビア語言語モデリング

要点

関連記事

Black Hat Asia

不可視文字でマルウエア混入 GitHubなどで汚染拡大、開発基盤の信頼揺らぐ

富士通がAI駆動で開発工程を自動化、ビジネスも人月型からFDE型へ

LLMの理解度に関する質問

CursorがワイルドカードCORSを生成し続ける理由――そして修正方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer