知らないこと以上を語る:大規模言語モデルにおける認識論的・修辞的ミスキャリブレーションを定量化するための枠組み

arXiv cs.CL / 2026/4/23

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本研究は、大規模言語モデルが「認識論的・修辞的ミスキャリブレーション」を起こしがちであり、修辞的な強度が根拠となる認識論的な裏付けの強さに比例しないと主張している。
  • triadic epistemic-rhetorical marker(ERM)のタクソノミーを提案し、form-meaning divergence(FMD)、genuine-to-performed epistemic ratio(GPR)、修辞デバイス分布のエントロピー(RDDE)の3つの複合指標で定量化する。
  • 専門家・非専門家の人間、LLM生成の文章サブコーパスからなる225本の議論文(約60万トークン)に適用した結果、モデル非依存で一貫したLLM固有の「認識論的シグネチャ」を特定した。
  • LLM出力では、特定の談話パターン(トリコロン等)や「演じられたためらい」マーカーの使用が人間より増え、FMDが両人間群に比べて有意に高く、修辞デバイスの分布もより一様であることが示された。
  • 注釈パイプラインが完全自動化可能であるため、この枠組みはAI生成コンテンツにおけるミスキャリブレーションの軽量スクリーニング手段、ならびにLLM生成テキスト検出パイプライン向けの理論に基づく特徴量として展開できるとしている。

Abstract

大規模言語モデル(LLM)は、叙述的(修辞的)な強度が、認識論的な裏付け(エピステミックな根拠)に比例しない形で系統的な誤校正を示す。本研究はこの仮説を検証し、三項の認識論的—修辞的マーカー(ERM)分類法を設計することで、この切り離し(デカップリング)を定量化するための枠組みを提案する。分類法は、形式—意味の乖離(FMD)、真正の認識論/演じられた認識論の比(GPR)、および修辞的デバイス分布エントロピー(RDDE)という複合指標によって実装される。人間の専門家、非専門家、そしてLLMが生成したサブコーパスにまたがる、約60万トークンの225本の議論文に適用したところ、この枠組みは、モデルに依存しない一貫したLLMの認識論的シグネチャを同定する。LLM生成テキストは、専門家のほぼ2倍の割合でトリコロン(tricolon)を生成する(\Delta = 0.95)。一方、人間の著者はLLMの2倍以上の割合でエロテマ(erotema)を生成する。演じられた躊躇マーカーは、LLM出力では人間の密度の2倍で現れる。FMDは、両方の人間グループに比べてLLMテキストで有意に高い(p < 0.001, \Delta = 0.68)。また修辞的デバイスは、LLMドキュメント間でより有意に均一に分布している。これらの結果は、グライス的プラグマティクス、関連性理論、ブランダムの推論主義から導かれる理論的な直観と整合的である。注釈パイプラインは完全に自動化可能であり、AI生成コンテンツにおける認識論的誤校正のための軽量なスクリーニングツールとして、またLLM生成テキスト検出パイプラインのための理論に動機づけられた特徴集合として展開可能である。