Perplexityを超えて:文字分布シグネチャとAIテキスト検出のMDTAベンチマーク

arXiv cs.CL / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 本論文は、モデルの対数尤度に基づく訓練不要のAIテキスト検出には、RLHFにより確率分布が人間らしく最適化されることで限界があると主張している。
  • 代替となる検出手がかりとして、文字分布シグネチャを提案し、AIは大域的な文字パターンに近づく一方、人間は領域に特化した分布を示すため「人間とAIの分離の壁」が生まれるという理論的根拠を示している。
  • 系統的な評価のため、4モデル・5領域・3温度設定・3種類のアドバーサリアル戦略にまたがるprompt-alignedサンプル計642,274件からなるMDTAベンチマークを構築しており、HC3を拡張している。
  • 手法としてLetter Distribution Score(LD-Score)を導入し、パープレキシティ系手法との相関が低い(r=0.08–0.13)ことを示すとともに、DNA-DetectLLMやBinoculars、FastDetectGPTと非線形分類器で組み合わせることでAUROCとF1が改善することを報告している。
  • MDTAデータセットはHugging Faceで公開されている。