すべての事前学習は同じではない:低資源環境における不均衡なポーラリゼーション課題のための閾値調整とクラス重み付け
arXiv cs.LG / 2026/3/26
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、SemEval-2025 ポーラリゼーション共有タスクに向けたトランスフォーマー系の解法を提示しており、バイナリのポーラリゼーション検出に加えて、英語およびスワヒリ語の両方で2つのマルチラベル分類サブタスクを扱う。
- クラス重み付き損失、反復的な層化データ分割、ラベルごとの閾値チューニングにより、低資源環境における深刻なクラス不均衡下での性能を向上させる。
- 手法は多言語モデルおよびアフリカ言語向けの専門モデル(mDeBERTa-v3-base、SwahBERT、AfriBERTa-large)を組み合わせており、検証結果としては mDeBERTa-v3-base が最良であったと報告している。
- 報告されている結果では、バイナリ検出の検証でマクロF1が 0.8032 に達し、マルチラベル課題では最大 0.556 のマクロF1 が得られており、競争力のある有効性を示す一方で改善の余地も残っている。
- 誤り分析では、暗黙のポーラリゼーション、コードスイッチング、そして感情的な政治的レトリックを真のポーラリゼーションのシグナルから切り分けることに対する継続的な困難が強調される。