AIは人間の表現に追いついているのか?6つの大規模言語モデルを用いて、英語とアラビア語における感情・パーソナリティ・著者性・言語スタイルを探る

arXiv cs.CL / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 論文では、6つの大規模言語モデル(Jais、Mistral、LLaMA、GPT-4o、Gemini、DeepSeek)を対象に、それらが英語とアラビア語において人間らしい感情、パーソナリティ、スタイル上の手がかりを模倣できるかを検証する。
  • 分類器は全体として、ヒトが書いた文章とAIが生成した文章を信頼性高く識別できる(F1 > 0.95)が、言い換えられたサンプルでは性能が低下する。これは、浅い(表面的な)スタイルの手がかりに依存していることを示唆している。
  • 感情に関する実験(英語)とパーソナリティ指標に関する実験(アラビア語)では、大きな汎化ギャップが見られる。すなわち、人間データで訓練した分類器はAIテキストでうまく機能せず、その逆も同様である。これは、LLMが感情(affective)情報を人間とは異なる形で符号化していることを示唆する。
  • 資源が十分でないアラビア語においては、学習時にAI生成データを追加するとアラビア語のパーソナリティ分類の性能が向上する。これは、合成データが評価ギャップを埋めるのに役立つ可能性を示している。
  • モデル比較から、GPT-4oとGeminiはより良い「情動的な整合性(affective coherence)」を生成することが示唆される。一方で、言語学的・心理言語学的分析では、著者推定(authorship attribution)と責任あるAI導入に重要となる、口調、真正性、テキストの複雑さといった測定可能な差異が見出される。

Abstract

LLMの流暢性が進むにつれ、感情表現やパーソナリティといった複雑な人間的特性を、多様な言語・文化的文脈にわたって模倣できる能力について、重要な疑問が生じている。本研究では、過少な資源しか持たない言語であり、独自の言語的・文化的特徴を有するアラビア語において、英語の感情的ニュアンスとパーソナリティの指標を、LLMが説得力をもって模倣できるかを調査する。Jais、Mistral、LLaMA、GPT-4o、Gemini、DeepSeekの6モデルに対して2つのタスクを実施する。第一に、機械分類器が、人間が書いたテキストとAIが生成したテキストを確実に区別できるかどうかを評価する。第二に、LLMが生成したテキストが、人間と比較してどの程度感情的またはパーソナリティの特性を示すかを測定する。結果として、AI生成テキストは人間が書いたテキストと区別可能であることが示された(F1>0.95)。ただし、言い換え(パラフレーズ)されたサンプルでは分類性能が低下し、表面的なスタイル上の手がかりへの依存がうかがえる。感情・パーソナリティの分類実験では、顕著な汎化ギャップが明らかになった。すなわち、人間データで訓練された分類器はAI生成テキスト上でうまく機能せず、その逆も同様であり、LLMが符号化する情動(affective)の手がかりは人間とは異なる形で表現されていることを示唆する。重要な点として、AI生成データで訓練を補強すると、アラビア語のパーソナリティ分類タスクで性能が向上する。これは、過少な資源のある言語における課題に対処するうえで合成データが持つ可能性を示している。モデル固有の分析では、GPT-4oとGeminiがより優れた情動的な一貫性(affective coherence)を示すことが分かった。言語学的・心理言語学的分析により、人間テキストとAIテキストの間で、トーン、真正性、テキストの複雑性に測定可能な相違があることが明らかになった。これらの知見は、情動コンピューティング、著者帰属(authorship attribution)、そして責任あるAIの導入に意味を持つ。特に、生成AIの検出やアライメントが独自の困難を伴う、過少な資源のある言語の文脈では重要である。