ViGoEmotions:ベトナム語テキストにおけるきめ細かな感情検出のためのベンチマークデータセット

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、感情検出研究のための、27種類のきめ細かな感情ラベルが付与された20,664件のコメントからなるベトナムのソーシャルメディア・データセットViGoEmotionsを紹介する。
  • 8つの事前学習済みTransformerベースのモデルを、絵文字の扱い/前処理方針として「元の絵文字を保持する」「絵文字をテキストに変換する」「ViSoLexによる語彙正規化を適用する」の3戦略でベンチマークする。
  • 実験結果では、絵文字をテキストによる説明に変換するといくつかのBERTベースのベースラインが改善する一方、ViSoBERTおよびCafeBERTでは絵文字を保持する方法が概して最も良いことが示される。
  • 絵文字を取り除くと一般にモデル性能が低下し、きめ細かな感情分類において絵文字情報が重要であることが裏付けられる。
  • ViSoBERTはMacro F1 61.50%、Weighted F1 63.26%で最高結果を達成し、複数のアーキテクチャに対するデータセットの有用性を示すとともに、前処理と注釈の品質が主要な決定要因であることを強調している。

Abstract

感情分類は、感情予測および有害コンテンツ検出において重要な役割を果たす。近年、NLP、特に大規模言語モデル(LLM)によって、この分野の成果は大きく向上している。本研究では、ViGoEmotions――27の細粒度で異なる感情に各コメントを分類する、20,664件のソーシャルメディアコメントから成るベトナム語の感情コーパス――を紹介する。データセットの品質と感情分類への影響を評価するために、3つの前処理戦略の下で8つの事前学習済みTransformerベースモデルを評価した:ルールベースの正規化により元の絵文字を保持すること、絵文字をテキストの説明に変換すること、そしてモデルベースの語彙正規化システムであるViSoLexを適用すること。結果は、絵文字をテキストに変換すると複数のBERTベースのベースラインの性能がしばしば向上する一方で、ViSoBERTとCafeBERTでは絵文字を保持することが最良の結果をもたらすことを示している。対照的に、絵文字を削除すると概して性能が低下する。ViSoBERTは、Macro F1スコア61.50%、Weighted F1スコア63.26%という最高値を達成した。CafeBERTおよびPhoBERTからも強い性能が観察された。これらの結果は、提案するコーパスが多様なアーキテクチャを効果的に支援し得る一方で、前処理戦略とアノテーションの品質が下流での性能に影響する重要な要因であることを示している。