AraModernBERT: アラビア語のためのトランストークン化埋め込み初期化と長文脈エンコーダーモデリング
arXiv cs.AI / 2026/3/12
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- AraModernBERTは、ModernBERTエンコーダーアーキテクチャのアラビア語版として提示される。
- 本研究は、トランストークン化埋め込み初期化とネイティブな長文脈モデリング(最大8,192トークン)を用いることで、アラビア語の言語モデリング性能を大きく向上させることを示している。
- AraModernBERTは安定して効果的な長文脈モデリングをサポートし、拡張シーケンス長での固有言語モデリング性能を向上させる。
- 推論、攻撃的言語検出、質問-質問の類似性、固有表現認識を含むアラビア語NLPタスクの下流評価は、識別的タスクおよびシーケンスラベリング設定への強い転移を確認している。
エンコーダーのみのトランスフォーマーモデルは、識別的NLPタスクには広く用いられている一方で、近年のアーキテクチャの進歩は主に英語に焦点を当ててきた。本研究では、アラビア語へ適用したModernBERTエンコーダーアーキテクチャの適応であるAraModernBERTを提示し、トランストークン化埋め込み初期化と最大8,192トークンまでのネイティブ長文脈モデリングの影響を検討する。トランストークン化がアラビア語の言語モデリングに不可欠であり、非トランストークン化初期化と比較してマスクド言語モデリングの性能を劇的に改善することを示す。さらに、AraModernBERTは安定して効果的な長文脈モデリングをサポートし、拡張されたシーケンス長での固有言語モデリング性能を向上させることを示している。アラビア語の自然言語理解タスク(推論、攻撃的言語検出、質問-質問の類似性、固有表現認識を含む)における下流評価は、識別的なタスクとシーケンスラベリング設定への強い転移を確認している。我々の結果は、モダンなエンコーダーアーキテクチャをアラビア語およびアラビア由来スクリプトで書かれる他の言語へ適用する際の実践的な考慮事項を強調している。
