広告

ASCAT:高度な翻訳評価のためのアラビア語科学コーパスとベンチマーク

arXiv cs.CL / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文では、短文や単一ドメインの文ではなく、完全なアブストラクトの科学翻訳を評価することに特化した、高品質な英語—アラビア語の並列コーパスおよびベンチマークであるASCATを紹介する。
  • ASCATは、生成AI(Gemini)、トランスフォーマーベースのモデル(Hugging Face quickmt-en-ar)、商用MT API(Google Translate、DeepL)を用いた体系的なマルチエンジン翻訳パイプラインにより構築され、その後、語彙・統語・意味の各レベルで人手による専門家検証を行う。
  • ベンチマークは5つの科学ドメイン—物理学、数学、計算機科学、量子力学、人工知能—をカバーし、各アブストラクトは平均で英語約141.7語、アラビア語約111.78語である。
  • 公開コーパスの統計として、英語トークン67,293、アラビア語トークン60,026、アラビア語の語彙は17,604のユニーク語であり、アラビア語の形態的豊かさを反映している。
  • 3つの最先端LLM(GPT-4o-mini、Gemini-3.0-Flash-Preview、Qwen3-235B-A22B)で評価すると、ASCATはそれぞれBLEUスコア37.07、30.44、23.68を示し、科学MT評価のための識別的価値とドメインモデル学習への有用性が確認される。

Abstract

我々はASCAT(Advanced Translationのためのアラビア科学コーパス:Arabic Scientific Corpus for Advanced Translation)を提示する。これは、体系的なマルチエンジン翻訳と人手による検証のパイプラインによって構築された、高品質な英語-アラビア語の並列ベンチマークコーパスであり、科学翻訳の評価のために設計されている。短い文や単一ドメインのテキストに依存する既存のアラビア語-英語コーパスとは異なり、ASCATは、平均141.7語(英語)および111.78語(アラビア語)の全文の科学アブストラクトを対象とする。これらは5つの科学ドメイン(物理学、数学、コンピュータサイエンス、量子力学、人工知能)から収集されている。各アブストラクトは、3つの補完的なアーキテクチャの生成AI(Gemini)、トランスフォーマーベースのモデル(Hugging Face \texttt{quickmt-en-ar})、および商用MT API(Google Translate、DeepL)を用いて翻訳され、その後、専門家によって語彙・構文・意味の各レベルで検証された。得られたコーパスには67,293個の英語トークンと60,026個のアラビア語トークンが含まれ、アラビア語の語彙は17,604の固有語からなり、言語の形態的な豊かさを反映している。このコーパス上で、最先端の3つのLLMをベンチマーク評価する:GPT-4o-mini(BLEU: 37.07)、Gemini-3.0-Flash-Preview(BLEU: 30.44)、およびQwen3-235B-A22B(BLEU: 23.68)。これにより、評価ベンチマークとしての識別能力が示される。ASCATは、アラビア語における科学MT資源の重要なギャップを埋め、科学翻訳の品質を厳密に評価すること、ならびにドメイン固有の翻訳モデルの訓練を支援することを目的として設計されている。

広告