すべての事前学習は同じではない:低資源環境における不均衡なポーラリゼーション課題のための閾値調整とクラス重み付け

arXiv cs.LG / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、SemEval-2025 ポーラリゼーション共有タスクに向けたトランスフォーマー系の解法を提示しており、バイナリのポーラリゼーション検出に加えて、英語およびスワヒリ語の両方で2つのマルチラベル分類サブタスクを扱う。
  • クラス重み付き損失、反復的な層化データ分割、ラベルごとの閾値チューニングにより、低資源環境における深刻なクラス不均衡下での性能を向上させる。
  • 手法は多言語モデルおよびアフリカ言語向けの専門モデル(mDeBERTa-v3-base、SwahBERT、AfriBERTa-large)を組み合わせており、検証結果としては mDeBERTa-v3-base が最良であったと報告している。
  • 報告されている結果では、バイナリ検出の検証でマクロF1が 0.8032 に達し、マルチラベル課題では最大 0.556 のマクロF1 が得られており、競争力のある有効性を示す一方で改善の余地も残っている。
  • 誤り分析では、暗黙のポーラリゼーション、コードスイッチング、そして感情的な政治的レトリックを真のポーラリゼーションのシグナルから切り分けることに対する継続的な困難が強調される。

Abstract

本論文では、SemEval-2025におけるPolarization Shared Taskへの提出内容を述べる。このタスクは、ソーシャルメディア文における偏向(ポラライゼーション)の検出と分類を扱う。私は、3つのサブタスクにまたがって、英語とスワヒリ語向けのTransformerベースのシステムを開発した。すなわち、(1)二値の偏向検出、(2)複数ラベルの対象タイプ分類、(3)複数ラベルの顕在化(マニフェステーション)同定である。提案手法は、多言語およびアフリカ言語に特化したモデル(mDeBERTa-v3-base、SwahBERT、AfriBERTa-large)、クラス重み付き損失関数、反復的層化データ分割、そしてラベルごとの閾値チューニングを活用し、深刻なクラス不均衡に対処する。最良の構成であるmDeBERTa-v3-baseは、二値検出の検証データにおいて0.8032のmacro-F1を達成し、複数ラベルのタスクでも競争力のある性能を示す(最大0.556 macro-F1)。誤り分析により、暗黙的な偏向、コードスイッチング、そして熱を帯びた政治的言説を真の偏向から区別することに関して、課題が継続的に存在することが明らかになった。