あなたのLLMジャッジはどれほど偽善的か?大規模言語モデルの実用的能力における聞き手・話し手の非対称性

arXiv cs.CL / 2026/4/20

📰 ニュースModels & Research

要点

  • 本研究は、LLMが「実用的なジャッジ」(聞き手)として振る舞う能力と、「実用的な話し手」(生成側)としての能力が、実用的能力の観点でどれほど一致するかを検討しています。
  • 幅広いモデル(オープンウェイトとプロプライエタリ)を対象に、3つの実用的な場面で両ロールを直接比較して評価します。
  • 結果として、多くのLLMは、言語出力の適切さを判断する能力の方が、実用的に適切な言語を生成する能力よりも大きく優れていることが示されました。
  • この結果は、現在のLLMでは「実用的な評価」と「実用的な生成」の相関が弱いことを示唆し、より統合的な評価手法の必要性を提起しています。

要旨: 大規模言語モデル(LLM)は、言語知識のリポジトリとしてますます研究されている。本研究の流れにおいて、モデルは一般に、言語の生成器として評価されると同時に、言語出力の判定者としても評価される。しかしながら、これら二つの役割は直接的な関係として検討されることがほとんどない。その結果、どちらか一方の役割における成功が、他方の役割における成功と一致するのかは不明なままである。本論文では、実用的能力(pragmatic competence)について、この問題に取り組む。すなわち、LLMの性能を、言語出力の適切さを判断する「実用的リスナー(pragmatic listeners)」として、また、実用的に適切な言語を生成する「実用的スピーカー(pragmatic speakers)」として比較することで検討する。私たちは、3つの実用的な設定(pragmatic settings)にわたって、複数の公開重み付きおよび専有(proprietary)LLMを評価する。その結果、実用的評価(pragmatic evaluation)と実用的生成(pragmatic generation)の間には頑健な非対称性があることがわかった。すなわち、多くのモデルはスピーカーとしてよりもリスナーとしてのほうが、実質的に大幅に良い性能を示す。これらの結果は、現在のLLMにおいて実用的な判断(pragmatic judging)と実用的な生成(pragmatic generation)が、強くは一致していないことを示唆しており、より統合的な評価手法が求められる。