コード混合ローマン・ウルドゥー語ツイートにおける希望表現検出: 自然言語処理における前向きな展開

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、コード混合ローマン・ウルドゥー語のツイートにおける希望表現検出に取り組み、低リソースの非公式言語形態に対する包摂的NLP研究のギャップを埋める。
ローマン・ウルドゥー語の希望表現の初の多クラス注釈データセットを Generalized Hope、Realistic Hope、Unrealistic Hope、Not Hope のカテゴリで導入する。
ローマン・ウルドゥー語の統語・意味の変動性に最適化したカスタムアテンションベースのトランスフォーマーモデルを提案し、5分割交差検証で評価する。
XLM-R は0.78の最良の交差検証スコアを達成し、ベースライン SVM (0.75) および BiLSTM (0.76) をそれぞれ4%と2.63%上回る。
希望の心理的基盤と語彙パターンを分析してデータセット開発を導き、t検定で性能向上の統計的有意性を検証する。

要旨: 希望とは、将来の好ましい結果を期待するポジティブな感情状態であり、希望表現とは、特に困難な文脈において楽観主義、レジリエンス、支援を促進するコミュニケーションを指します。自然言語処理（NLP）における希望表現検出は注目されているものの、既存の研究は主にリソースの豊富な言語と標準化されたスクリプトに焦点を当てており、ローマ字ウルドゥー語のような非公式で十分に表現されていない形を見落としていることが多いです。私たちの知る限り、本研究は、慎重に注釈付けされたデータセットを導入することにより、コード混合ローマン・ウルドゥー語における希望表現検出に初めて取り組み、低リソースで非公式な言語形態の包摂的NLP研究における重要なギャップを埋めます。本研究は4つの主要な貢献をします。 (1) ローマン・ウルドゥー語の希望表現の初の多クラス注釈データセットを導入し、Generalized Hope、Realistic Hope、Unrealistic Hope、Not Hope のカテゴリを含みます。 (2) 希望の心理的基盤を探求し、コード混合ローマン・ウルドゥー語におけるその言語的パターンを分析してデータセット開発に情報を提供します。 (3) ローマン・ウルドゥー語の統語的・意味的変動性に最適化されたカスタムのアテンションベースのトランスフォーマーモデルを提案し、5分割交差検証を用いて評価します。 (4) t検定を用いて性能向上の統計的有意性を検証します。提案モデル XLM-R は、0.78 のクロスバリデーションスコアで最高の性能を達成し、ベースライン SVM（0.75）および BiLSTM（0.76）を上回り、それぞれ4%および2.63%の改善を示します。