AraModernBERT: アラビア語のためのトランストークン化埋め込み初期化と長文脈エンコーダーモデリング

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

AraModernBERTは、ModernBERTエンコーダーアーキテクチャのアラビア語版として提示される。
本研究は、トランストークン化埋め込み初期化とネイティブな長文脈モデリング（最大8,192トークン）を用いることで、アラビア語の言語モデリング性能を大きく向上させることを示している。
AraModernBERTは安定して効果的な長文脈モデリングをサポートし、拡張シーケンス長での固有言語モデリング性能を向上させる。
推論、攻撃的言語検出、質問-質問の類似性、固有表現認識を含むアラビア語NLPタスクの下流評価は、識別的タスクおよびシーケンスラベリング設定への強い転移を確認している。

エンコーダーのみのトランスフォーマーモデルは、識別的NLPタスクには広く用いられている一方で、近年のアーキテクチャの進歩は主に英語に焦点を当ててきた。本研究では、アラビア語へ適用したModernBERTエンコーダーアーキテクチャの適応であるAraModernBERTを提示し、トランストークン化埋め込み初期化と最大8,192トークンまでのネイティブ長文脈モデリングの影響を検討する。トランストークン化がアラビア語の言語モデリングに不可欠であり、非トランストークン化初期化と比較してマスクド言語モデリングの性能を劇的に改善することを示す。さらに、AraModernBERTは安定して効果的な長文脈モデリングをサポートし、拡張されたシーケンス長での固有言語モデリング性能を向上させることを示している。アラビア語の自然言語理解タスク（推論、攻撃的言語検出、質問-質問の類似性、固有表現認識を含む）における下流評価は、識別的なタスクとシーケンスラベリング設定への強い転移を確認している。我々の結果は、モダンなエンコーダーアーキテクチャをアラビア語およびアラビア由来スクリプトで書かれる他の言語へ適用する際の実践的な考慮事項を強調している。

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

AraModernBERT: アラビア語のためのトランストークン化埋め込み初期化と長文脈エンコーダーモデリング

要点

関連記事

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer