AI Navigate

Fanar 2.0: アラビア語ジェネレーティブAIスタック

arXiv cs.CL / 2026/3/18

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Fanar 2.0は、カタールのアラビア語中心のジェネレーティブAIプラットフォームの第2世代で、QCRI(カタール計算機研究所)によって完全に社内設計・運用され、主権を中核原則とする。
  • 256のNVIDIA H100 GPUを搭載して動作し、ターゲットを絞った継続的事前学習とモデル統合を行うデータ品質優先戦略を採用し、Fanar 1.0より8分の1の事前学習トークンで恩恵を得る。
  • コアとなるFanar-27Bモデルは、Gemma-3-27Bのバックボーンから継続的に事前学習され、3つのデータレシピにまたがる1,200億の高品質トークンを厳選コーパスとして用いることで、ベンチマークにおけるアラビア語知識の向上を9.1ポイント、言語能力を7.3ポイント、方言を3.5ポイント、英語能力を7.6ポイント達成。
  • Fanar 2.0スタックは、FanarGuardによるモデレーション、Auraによる長文自動音声認識(ASR)、Oryxのアラビア語対応画像・動画理解と生成、複数段階ワークフローのためのエージェント型ツール呼出フレームワーク、イスラム教関連コンテンツ向けのFanar-Sadiq、古典アラビア語詩の生成を担当するFanar-Diwan、FanarShaheenによるバイリンガル翻訳、意図認識を考慮したルーティングと安全性検証を備えた再設計された多層オーケストレータを追加し、主権を持つ資源制約下のAIが大規模なシステムに匹敵できることを示している。