RoIt-XMASA:ルーマニア語・イタリア語向けマルチドメイン多言語センチメント分析データセット
arXiv cs.CL / 2026/4/21
📰 ニュースModels & Research
要点
- 本論文は、クロスリンガルかつマルチドメインのAmazonレビュー環境に、イタリア語とルーマニア語を追加する多言語センチメント分析データセット「RoIt-XMASA」を提案しています。
- データセットには、3つのドメイン(書籍・映画・音楽)にまたがる36,000件のラベル付きレビューに加えて、202,141件の未ラベル・サンプルが含まれており、学習方式の幅が広がります。
- 言語・ドメイン間の転移課題に対処するため、著者らはメタ学習した係数による損失反転(loss reversal)を用いたマルチターゲットの敵対的学習フレームワークを提案し、センチメント識別とドメイン/言語不変性のバランスを動的に調整します。
- 実験では、XLM-RがF1 66.23%を達成しベースラインより4.64%改善したほか、few-shot評価ではLlama-3.1-8BがF1 58.43%を示し、プロンプトベースの効率とタスク特化の微調整性能の間にトレードオフがあることが示されます。
関連記事

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA
Grok-2 Mini と Grok-3(mini)はどこにあるのか?
Reddit r/LocalLLaMA