大規模言語モデルにおける社会的意味:構造・大きさ・実用的(プラグマティック)プロンプト

arXiv cs.AI / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、新しいキャリブレーションに焦点を当てた指標(ESRとCDS)を用いることで、構造的忠実度と大きさ(マグニチュード)のキャリブレーションを切り分けつつ、大規模言語モデルが人間の社会的意味を質的・量的の両面で捉えられているかを検証する。
  • 数値の(不)精密さに関するケーススタディを通じて、最先端のLLMは人間の社会的推論の質的な構造は再現するが、その推論の大きさのキャリブレーション(どれだけ強く捉えるか)については大きくばらつく。
  • 実用理論(プラグマティック理論)に基づくプロンプト、具体的には話し手の知識状態や伝達上の動機について推論することを促す手法は、「代替可能性への気づき」を重視するプロンプトよりも、大きさの逸脱をより確実に減らす。
  • 実用的な2つの構成要素を組み合わせることで、評価したすべてのモデルにわたって複数のキャリブレーションに敏感な指標が改善するが、きめ細かな大きさのキャリブレーションは依然として部分的にしか解決されない。
  • 総合すると、結果はLLMが実用的/社会的推論の推論的(インフェレンシャル)構造をモデル化している一方で、その推論の強さは歪めていることを示唆し、また実用理論に基づくプロンプトは限定的で不完全な形でしか効果を示さない。

Abstract

大規模言語モデル(LLM)は、ますます人間のような、実用的かつ社会的な推論パターンを示すようになってきています。本論文では、関連する2つの問いに取り組みます。すなわち、LLMは人間の社会的意味を、質的にだけでなく量的にも近似できるのか、そして、実用理論に基づくプロンプト戦略によってその近似を改善できるのか、です。まず前者に対して、構造の忠実性と大きさ(マグニチュード)の較正(キャリブレーション)を区別する、較正に焦点を当てた2つの指標、効果量比(Effect Size Ratio: ESR)と較正偏差スコア(Calibration Deviation Score: CDS)を導入します。後者に対しては、2つの実用的仮定からプロンプト条件を導出します。すなわち、社会的意味は言語的選択肢に対する推論から生じること、そして聞き手は話し手の知識状態およびコミュニケーション上の動機を推論すること、です。3つの最先端LLMにまたがって数値的な(非)精度がどのように扱われるかという事例研究に適用したところ、すべてのモデルが人間の社会的推論の質的構造を確実に再現する一方で、大きさの較正には大きな差があることが分かりました。話し手の知識と動機について推論させるようにプロンプトすると、最も一貫して大きさの偏差が減少しますが、代替可能性への気づきを促すようなプロンプトでは誇張が増幅する傾向が見られます。両方の要素を組み合わせることだけが、すべてのモデルにわたって、較正に敏感なすべての指標を改善する唯一の介入ですが、細かな大きさの較正はなお部分的にしか解決されません。したがって、LLMは推論の構造を捉える一方で推論の強さをばらつきつつ歪めており、実用理論はその近似を改善するための有用な手がかりを与えるものの、完全ではないということです。