AIは人間の表現に追いついているのか?6つの大規模言語モデルを用いて、英語とアラビア語における感情・パーソナリティ・著者性・言語スタイルを探る
arXiv cs.CL / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 論文では、6つの大規模言語モデル(Jais、Mistral、LLaMA、GPT-4o、Gemini、DeepSeek)を対象に、それらが英語とアラビア語において人間らしい感情、パーソナリティ、スタイル上の手がかりを模倣できるかを検証する。
- 分類器は全体として、ヒトが書いた文章とAIが生成した文章を信頼性高く識別できる(F1 > 0.95)が、言い換えられたサンプルでは性能が低下する。これは、浅い(表面的な)スタイルの手がかりに依存していることを示唆している。
- 感情に関する実験(英語)とパーソナリティ指標に関する実験(アラビア語)では、大きな汎化ギャップが見られる。すなわち、人間データで訓練した分類器はAIテキストでうまく機能せず、その逆も同様である。これは、LLMが感情(affective)情報を人間とは異なる形で符号化していることを示唆する。
- 資源が十分でないアラビア語においては、学習時にAI生成データを追加するとアラビア語のパーソナリティ分類の性能が向上する。これは、合成データが評価ギャップを埋めるのに役立つ可能性を示している。
- モデル比較から、GPT-4oとGeminiはより良い「情動的な整合性(affective coherence)」を生成することが示唆される。一方で、言語学的・心理言語学的分析では、著者推定(authorship attribution)と責任あるAI導入に重要となる、口調、真正性、テキストの複雑さといった測定可能な差異が見出される。