要旨: アラビア語に対する現在の機械翻訳(MT)システムは、方言の多様性を考慮することがしばしば難しく、方言入力を現代標準アラビア語(MSA)へと均質化してしまうことが多いほか、目標の話し言葉(ヴァナキュラー)に対するユーザーの制御も限定的です。本研究では、地域的・社会言語学的な変異を明示的にモデル化する、文脈に応じた(context-aware)かつ制御可能(steerable)な方言アラビア語MTの枠組みを提案します。本研究の主な技術的貢献は、ルールベースのデータ拡張(Rule-Based Data Augmentation, RBDA)パイプラインであり、3,000文のシードコーパスを、8つの地域バリエーション(例:エジプト、レバント、ガルフ等)をカバーする、バランスの取れた57,000文の並列データセットへと拡張します。軽量なメタデータタグに条件付けてmT5-baseモデルを微調整することで、翻訳出力において方言や社会的レジスターにわたる制御可能な生成を可能にします。
自動評価と質的分析の組み合わせにより、いわゆる「正確さ(accuracy)と忠実度(fidelity)のトレードオフ」が見られることを観察します。NLLB(No Language Left Behind)のような高リソースのベースラインは、デフォルトでMSA平均へ寄せることで、総合的なBLEUスコア(13.75)を高く達成する一方、方言固有性は限定的です。これに対して、当モデルはより低いBLEUスコア(8.19)を達成するものの、意図された地域バリエーションにより密接に整合する出力を生成します。質的評価として、LLM支援による文化的真正性の分析を含めると、ベースラインシステムと比べて(4.80/5 対 1.0/5)、方言の整合性が向上していることが示唆されます。これらの知見は、方言に敏感なタスクに対する標準的なMT指標の限界を浮き彫りにし、アラビア語MTにおける言語的多様性をより適切に反映できる評価手法の必要性を動機づけます。
対話的な地域・レジスター選択による方言アラビア語の文脈対応型機械翻訳
arXiv cs.CL / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、方言アラビア語の機械翻訳に対し、地域的・社会言語学的な変異を明示的にモデル化し、デフォルトで標準現代アラビア語(MSA)へ寄せることを避ける、文脈対応かつ制御可能な枠組みを提案する。
- 3,000文のシードコーパスを、8つの方言地域(例:エジプト、レバント、湾岸など)をカバーするバランスの取れた57,000文の並列データセットへ拡張する、ルールベースのデータ拡張(RBDA)パイプラインに寄与する。
- 軽量なメタデータタグに条件付けることで、方言および社会レジスター間で制御可能な翻訳を可能にするため、mT5-baseモデルを微調整する。
- 結果として、精度と忠実度のトレードオフが示される。NLLBのような強いベースライン(MSAへ集約する傾向)ではBLEUが高くなる一方で、方言らしさの特異性が低下する。提案モデルはBLEUが低いにもかかわらず、より方言に沿った出力を達成する。
- 著者らは、標準的なMT評価指標は方言に敏感な品質を十分に反映しない可能性があると主張し、方言への整合性が改善しているという裏付けとして、LLMを用いた文化的真正性評価を提案する。



