ViGoEmotions:ベトナム語テキストにおけるきめ細かな感情検出のためのベンチマークデータセット
arXiv cs.CL / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、感情検出研究のための、27種類のきめ細かな感情ラベルが付与された20,664件のコメントからなるベトナムのソーシャルメディア・データセットViGoEmotionsを紹介する。
- 8つの事前学習済みTransformerベースのモデルを、絵文字の扱い/前処理方針として「元の絵文字を保持する」「絵文字をテキストに変換する」「ViSoLexによる語彙正規化を適用する」の3戦略でベンチマークする。
- 実験結果では、絵文字をテキストによる説明に変換するといくつかのBERTベースのベースラインが改善する一方、ViSoBERTおよびCafeBERTでは絵文字を保持する方法が概して最も良いことが示される。
- 絵文字を取り除くと一般にモデル性能が低下し、きめ細かな感情分類において絵文字情報が重要であることが裏付けられる。
- ViSoBERTはMacro F1 61.50%、Weighted F1 63.26%で最高結果を達成し、複数のアーキテクチャに対するデータセットの有用性を示すとともに、前処理と注釈の品質が主要な決定要因であることを強調している。