合成データによる大規模マルチリンガル・マルチラベル感情分類

arXiv cs.CL / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、既存コーパスにおける非英語データおよびマルチラベル注釈データの不足に対処するため、マルチリンガルかつマルチラベルの感情分類向けの大規模合成データセットを提案する。
文化的に適応した生成とプログラムによる品質フィルタリングを用いて、23言語にわたり1M+の学習サンプル（各言語50k）を構築し、11の感情カテゴリでラベル付けする。
同一条件で6つのマルチリンガル・トランスフォーマーエンコーダを学習し、最も性能の高いモデルはXLM-R-Large（560M）であり、ドメイン内テストセットでF1-micro 0.868、AUC-micro 0.987を達成する。
人手で注釈されたベンチマーク（GoEmotionsおよびSemEval-2018 Task 1 E-c）に対するゼロショット評価では、上位モデルがランキング指標において英語特化のベースラインと同等以上の性能を示し、かつ23言語すべてをカバーする。
最良のベースサイズのモデルをHugging Face上で公開し、他の研究者がマルチリンガル感情分類器を再利用してベンチマークできるようにする。