セマンティックデルタ: 人間とLLMの対話を識別する解釈可能な指標

arXiv cs.CL / 2026/3/23

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Empathフレームワークを用いた意味カテゴリ分布から導出される解釈可能な指標であるセマンティックデルタを提案し、人間が書いた対話とLLM生成対話を識別する。
  • セマンティックデルタは、対話における2つの最も支配的なテーマ強度スコアの差として算出され、LLM出力は人間の談話よりもテーマが集中していると仮定する。
  • 多様なLLM構成と人間コーパスを横断する実験は、AI生成テキストがより大きなデルタを生み出し、人間の会話よりも話題構造がより硬直していることを示している。
  • この指標は軽量かつゼロショットであり、アンサンブルシステム内の既存の検出技術を補完し、現在のモデル挙動の理解を深めることを目的としている。

要約: LLMは私たちのように話すのか。 この問いは多数の学者を魅了し、教育から学術界に至るまで多くの分野で関連しています。本研究は、人間が書いた対話とLLMsが生成した対話を識別するための、解釈可能な統計的特徴を提示します。意味カテゴリ分布に由来する軽量な指標を導入します。Empath語彙分析フレームワークを用いて、各テキストは一連の主題強度スコアにマッピングされます。意味デルタを、対話内で最も支配的な2つのカテゴリ強度の差として定義し、LLMの出力は人間の談話よりもテーマ集中が強いと仮定します。この仮説を評価するため、複数のLLM設定から対話データを生成し、脚本化された対話、文学作品、オンライン討論を含む異質な人間コーパスと比較しました。得られた意味デルタ値の分布にはウェルチのt検定を適用しました。結果は、AI生成テキストが一貫して人間のテキストよりも高いデルタを示し、より厳格な主題構造を持つことを示唆します。一方、人間の対話はより広く、よりバランスの取れた意味的広がりを示します。既存の検出技術を置き換えるのではなく、提案されたゼロショット指標は計算的に安価な補完信号を提供し、アンサンブル検出システムに組み込むことができます。これらの発見は、LLMの挙動模倣に関するより広範な実証的理解にも寄与し、主題分布が現在のモデルが人間の対話ダイナミクスに欠けている定量化可能な次元を構成することを示唆します。