人間は人間らしい文章を好むのか?多言語の人間検出とAIに対する嗜好

arXiv cs.CL / 2026/4/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、AIが生成した文章か人間が書いた文章かを、人間がどの程度の精度で見分けられるのかを多言語・多分野で検証する。
  • 9言語・9ドメインの16データセットを用い、19名のアノテータで平均検出精度87.6%を達成し、従来の結論を相対化する結果となった。
  • 人間文と機械文の主なズレは、具体性、文化的ニュアンス、そして多様性などにあることが示された。
  • 相違点をプロンプト内で明示的に説明することで、50%以上のケースでギャップを部分的に埋められる。
  • また、文章の出所がはっきりしない場合などには、人間が必ずしも人間の文章を好むとは限らないことを見出し、データセットとラベル、アノテータ情報をGitHubで公開した。

概要: 先行研究では、大規模言語モデル(LLM)が生成した文章と人間が書いた文章を区別することは、人間にとって非常に難しく、しばしばランダムな当て推量と同程度の成績しか得られないことが示されています。この知見が言語や領域をまたいでも一般化可能であることを検証するために、私たちは、人間による検出精度の上限を特定するための大規模なケーススタディを実施します。9つの言語と9つの領域をカバーする16のデータセットにおいて、19名のアノテータが平均検出精度87.6%を達成し、従来の結論に挑戦する結果となりました。人間の文章と機械の文章の間にある主要なギャップは、具体性、文化的ニュアンス、そして多様性にあることを見出します。プロンプト内で相違点を明確に説明することで、これらのギャップを50%以上のケースで部分的に埋めることができます。しかし同時に、人間は必ずしも人間が書いた文章を好むわけではないこと、特にその出所をはっきり特定できない場合に当てはまることも分かりました。私たちは、データセット、人間によるラベル、ならびにアノテータのメタデータを https://github.com/xnlp-lab/HumanEval-MGT で公開します。