Abstract
大規模言語モデル(LLM)は、叙述的(修辞的)な強度が、認識論的な裏付け(エピステミックな根拠)に比例しない形で系統的な誤校正を示す。本研究はこの仮説を検証し、三項の認識論的—修辞的マーカー(ERM)分類法を設計することで、この切り離し(デカップリング)を定量化するための枠組みを提案する。分類法は、形式—意味の乖離(FMD)、真正の認識論/演じられた認識論の比(GPR)、および修辞的デバイス分布エントロピー(RDDE)という複合指標によって実装される。人間の専門家、非専門家、そしてLLMが生成したサブコーパスにまたがる、約60万トークンの225本の議論文に適用したところ、この枠組みは、モデルに依存しない一貫したLLMの認識論的シグネチャを同定する。LLM生成テキストは、専門家のほぼ2倍の割合でトリコロン(tricolon)を生成する(\Delta = 0.95)。一方、人間の著者はLLMの2倍以上の割合でエロテマ(erotema)を生成する。演じられた躊躇マーカーは、LLM出力では人間の密度の2倍で現れる。FMDは、両方の人間グループに比べてLLMテキストで有意に高い(p < 0.001, \Delta = 0.68)。また修辞的デバイスは、LLMドキュメント間でより有意に均一に分布している。これらの結果は、グライス的プラグマティクス、関連性理論、ブランダムの推論主義から導かれる理論的な直観と整合的である。注釈パイプラインは完全に自動化可能であり、AI生成コンテンツにおける認識論的誤校正のための軽量なスクリーニングツールとして、またLLM生成テキスト検出パイプラインのための理論に動機づけられた特徴集合として展開可能である。