EnTaCs:英語・タミル語のコードスイッチングにおける感情と使用言語の関係を分析する
arXiv cs.CL / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、英語・タミル語のコードスイッチング文において、発話の感情(センチメント)が言語選択にどのように影響するかを機械学習と統計モデリングを組み合わせて調査する。
- 著者らは、DravidianCodeMixデータセットのローマ字表記YouTubeコメント35,650件に対して、トークン単位の言語識別のために微調整したXLM-RoBERTaモデルを用い、発話ごとの英語比率と、言語スイッチ頻度を推定する。
- 線形回帰の結果では、肯定的な発話は否定的な発話より英語比率が高く、肯定的(34.3%)は否定的(24.8%)よりも大きいことが示される。
- さらに分析では、発話の長さを統制したうえで、中立と肯定/否定など複数の感情が混在する発話が最も高い言語スイッチ頻度と相関することが見出される。
- これらの知見は、感情的内容が、行列言語(matrix language)と埋め込み言語(embedded language)に結び付いた「威信」や「アイデンティティ」といった社会言語学的連想を通じてコードスイッチング行動に影響する、という考えを支持する。



