GAIA-v2-LILT:翻訳を超えたエージェントベンチマークの多言語適応

arXiv cs.CL / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、機械翻訳と軽微なポストエディットに頼って作られた多言語エージェントベンチマークが、クエリと回答の不一致や文化的に不適切な文脈によって妥当性を損ねうると主張しています。
  • 関数(タスク)レベルのアラインメント、文化的アラインメント、難易度のキャリブレーションを明示的に行い、さらに自動チェックと人手レビューで検証する改良ワークフローを提案しています。
  • このワークフローにより、GAIAの多言語拡張版であるGAIA-v2-LILTを提示し、5つの非英語言語を対象に再監査(re-audit)されています。
  • 実験では、最小限の翻訳版に比べてワークフローによりエージェントの成功率が最大32.7%向上し、最も近い監査済み条件では英語性能との差を3.1%以内にまで縮めたと報告しています。
  • 多言語性能ギャップの大きな部分がベンチマーク由来の測定誤差であることを示唆し、データセット(MAPSの一部)と実験コード(GitHub)を公開しています。