ASCAT:高度な翻訳評価のためのアラビア語科学コーパスとベンチマーク
arXiv cs.CL / 2026/4/3
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文では、短文や単一ドメインの文ではなく、完全なアブストラクトの科学翻訳を評価することに特化した、高品質な英語—アラビア語の並列コーパスおよびベンチマークであるASCATを紹介する。
- ASCATは、生成AI(Gemini)、トランスフォーマーベースのモデル(Hugging Face quickmt-en-ar)、商用MT API(Google Translate、DeepL)を用いた体系的なマルチエンジン翻訳パイプラインにより構築され、その後、語彙・統語・意味の各レベルで人手による専門家検証を行う。
- ベンチマークは5つの科学ドメイン—物理学、数学、計算機科学、量子力学、人工知能—をカバーし、各アブストラクトは平均で英語約141.7語、アラビア語約111.78語である。
- 公開コーパスの統計として、英語トークン67,293、アラビア語トークン60,026、アラビア語の語彙は17,604のユニーク語であり、アラビア語の形態的豊かさを反映している。
- 3つの最先端LLM(GPT-4o-mini、Gemini-3.0-Flash-Preview、Qwen3-235B-A22B)で評価すると、ASCATはそれぞれBLEUスコア37.07、30.44、23.68を示し、科学MT評価のための識別的価値とドメインモデル学習への有用性が確認される。



