SemEval-2026 Task 9「多言語の分極化」：汎用・専門特化・アンサンブル戦略の比較研究（MKJ）

arXiv cs.CL / 2026/4/24

📰 ニュースModels & Research

共有:

要点

この論文は、SemEval-2026 Task 9（サブタスク1）における多言語の分極化検出について、22言語を対象に汎用・専門特化・アンサンブル手法を体系的に比較しています。
XLM-RoBERTaのような多言語汎用モデルは、ターゲット文に対してトークナイザが適合する場合には有効だが、異なる文字体系では言語別の専門モデルが大きく上回ることがあると示しています。
単一の汎用アーキテクチャに固定するのではなく、開発セットでの性能に基づいて多言語汎用モデル、言語別専門モデル、ハイブリッド・アンサンブルを切り替える「言語適応型」枠組みを提案しています。
NLLB-200によるクロスリンガルなデータ拡張は結果が混在し、しばしばネイティブなアーキテクチャ選択を下回り、形態が複雑な言語の一部では性能を悪化させることがあると述べています。
提案手法の最終システムは、22トラック全体でマクロ平均F1が0.796、平均精度が0.826を達成し、コードと最終テスト予測を公開しています。

要旨: 本稿では、SemEval-2026 タスク9（サブタスク1）における22言語を対象とした多言語の極性（ポラライゼーション）検出の体系的な研究を提示する。ここでは、多言語ジェネラリストと、言語固有のスペシャリスト、ならびにハイブリッド・アンサンブルを対比する。XLM-RoBERTaのような標準的なジェネラリストは、そのトークナイザが対象テキストと一致している場合には十分に機能するが、モノリンガルのスペシャリストが大きな改善をもたらす相違した文字体系（例：クメール語、オディア語）では苦戦する可能性がある。単一の普遍的なアーキテクチャを強制するのではなく、開発時の性能に基づいて多言語ジェネラリスト、言語固有のスペシャリスト、ハイブリッド・アンサンブルを切り替える言語適応型の枠組みを採用する。さらに、NLLB-200によるクロスリンガル拡張では結果が混在し、多くの場合、ネイティブなアーキテクチャ選択よりも性能が低くなり、形態的に豊かなトラックを悪化させた。最終システムは、全22トラックにわたる全体のマクロ平均F1スコア0.796と、平均精度0.826を達成した。コードおよび最終テスト予測は以下で公開している: https://github.com/Maziarkiani/SemEval2026-Task9-Subtask1-Polarization.