AIの著者性を解読する:LLMは文学と政治の領域で本当に人間の文体を模倣できるのか?

arXiv cs.CL / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • arXivの研究では、主要なLLM(GPT-4o、Gemini 1.5 Pro、Claude Sonnet 3.5)が、厳密なテーマ整合を伴うゼロショット・プロンプトによって、文学および政治の人物の著者的スタイルを模倣できるかどうかを評価している。
  • その結果、AIが生成した文章は「非常に検出可能」であり、機械学習分類器(BERT+XGBoost)が、少数の8つの様式計量特徴量(stylometric features)のみを用いて高い精度を達成することが示される。
  • 識別力が最も高い指標としてパープレキシティが浮上し、AI出力と人間の文章との間の、確率的な規則性(stochastic regularity)の違いが検出性を生み出していることが示唆される。
  • LLMは、構文の複雑さや可読性といった低次元のヒューリスティックに関しては部分的に収束を示すものの、微妙な情動の密度や文体の変動(スタイルの分散)を完全には再現できない。
  • 本研究は、LLMの文体的ふるまいを評価するベンチマークを提供するとともに、デジタル・ヒューマニティーズやソーシャルメディアにおける著者帰属(authorship attribution)の取り組みに資する。

要旨: 生成AIが特定の人間の文体を模倣する能力を高める中で、本研究は、GPT-4o、Gemini 1.5 Pro、Claude Sonnet 3.5 を含む最先端の大規模言語モデル(LLM)が、著名な文学者・政治家の作家としての署名を模倣できるかを調査する。対象は Walt Whitman、William Wordsworth、Donald Trump、Barack Obama である。厳密なテーマ整合を伴うゼロショット・プロンプト手法を用いて、合成コーパスを生成し、トランスフォーマーベースの分類(BERT)と解釈可能な機械学習(XGBoost)を組み合わせた補完的な枠組みで評価した。手法は Linguistic Inquiry and Word Count(LIWC)マーカー、パープレキシティ、可読性指標を統合し、AIが生成した文章と人間が執筆した文章との乖離を評価する。結果は、AIによる模倣は依然として高い確度で検出可能であることを示す。限定された8つのスタイロメトリック特徴量に基づいて学習したXGBoostモデルは、高次元のニューラル分類器と同程度の精度を達成した。特徴量の重要度分析により、判別の主要指標はパープレキシティであることが明らかになり、AI出力における確率的な規則性の大きな乖離が、人間の文章にみられるより高い変動性と対比されることが示された。LLMは、統語の複雑さや可読性といった低次元のヒューリスティック特徴量に関しては人間の著者と分布が収束するものの、現時点では、人間が執筆したコーパスに固有の微妙な情動の密度や文体上の多様性を完全には再現できていない。現在の生成的模倣における特定の統計的ギャップを切り分けることで、本研究はLLMの文体挙動に関する包括的なベンチマークを提供し、デジタル・ヒューマニティーズおよびソーシャルメディアにおける著者帰属推定に対して重要な洞察を与える。