RoIt-XMASA:ルーマニア語・イタリア語向けマルチドメイン多言語センチメント分析データセット

arXiv cs.CL / 2026/4/21

📰 ニュースModels & Research

要点

  • 本論文は、クロスリンガルかつマルチドメインのAmazonレビュー環境に、イタリア語とルーマニア語を追加する多言語センチメント分析データセット「RoIt-XMASA」を提案しています。
  • データセットには、3つのドメイン(書籍・映画・音楽)にまたがる36,000件のラベル付きレビューに加えて、202,141件の未ラベル・サンプルが含まれており、学習方式の幅が広がります。
  • 言語・ドメイン間の転移課題に対処するため、著者らはメタ学習した係数による損失反転(loss reversal)を用いたマルチターゲットの敵対的学習フレームワークを提案し、センチメント識別とドメイン/言語不変性のバランスを動的に調整します。
  • 実験では、XLM-RがF1 66.23%を達成しベースラインより4.64%改善したほか、few-shot評価ではLlama-3.1-8BがF1 58.43%を示し、プロンプトベースの効率とタスク特化の微調整性能の間にトレードオフがあることが示されます。

Abstract

本稿では、Cross-lingual Multi-domain Amazon Sentiment Analysis をイタリア語およびルーマニア語へ拡張する多言語データセット RoIt-XMASA を提示する。これには、3つのドメイン(書籍、映画、音楽)にまたがる36,000件のラベル付きレビューと、202,141件のラベルなしサンプルが含まれる。言語間およびドメイン間の課題に対処するために、我々は、感情識別とドメインおよび言語不変性のバランスを動的に調整する、メタ学習された係数による損失反転を用いたマルチターゲットの敵対的学習フレームワークを提案する。XLM-R は、本アプローチにより F1-score が 66.23% を達成し、ベースラインを4.64%上回る。少数ショット評価では、Llama-3.1-8B が 58.43% の F1-score を示し、プロンプトベース手法の効率性と、タスク特化のファインチューニングによる高い性能との間に意味のあるトレードオフが存在することが明らかになった。