エチオピア語系言語の多ラベル感情分析と対応する感情強度の強化

arXiv cs.CL / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • エチオピア語系言語の EthioEmo データセットは、さまざまな感情表現を捉えるために、多ラベルフレームワークで感情強度の注釈を追加して拡張されています。
  • 本研究ではエンコーダー専用の事前学習済み言語モデルとオープンソースの大規模言語モデルをベンチマークし、アフリカを中心としたエンコーダー専用モデルがこのタスクで一貫して LLM を上回ることを発見しました。
  • 感情強度の特徴を取り入れることで、拡張された EthioEmo データセット上の多ラベル感情分類性能が向上します。
  • このデータセットと知見は、感情理解には文化的・言語的に適合した小型モデルの重要性を強調しており、データは HuggingFace で入手可能です。

概要:感情理解モデルの開発と統合は、顧客フィードバック分析、マーケティングリサーチ、ソーシャルメディア監視など、幅広い人間とコンピュータの相互作用タスクにとって不可欠です。ユーザーはしばしば1つの事例の中で複数の感情を同時に表現するため、この複雑さを捉えるには感情データセットをマルチラベル形式で注釈することが重要です。エチオピアの言語向けの多言語・マルチラベル感情データセットである EthioEmo は、感情の強度注釈が欠如しており、すべての感情が同じ強度で表現されるわけではないため、さまざまな感情の程度を識別するのに重要です。私たちはこのギャップを埋めるため、感情強度注釈を追加して EthioEmo データセットを拡張します。さらに、この拡張データセット上で最先端のエンコーダー専用の事前学習言語モデル(PLMs)と大規模言語モデル(LLMs)をベンチマークします。私たちの結果は、アフリカ中心のエンコーダー専用モデルが一貫してオープンソースの LLMs を上回ることを示しており、感情理解における文化的・言語的に合わせた小型モデルの重要性を強調しています。マルチラベル感情分類のために感情強度機能を組み込むと、性能が向上します。データは https://huggingface.co/datasets/Tadesse/EthioEmo-intensities で利用可能です。

返却形式: {"translated": "翻訳されたHTML"}