AI Navigate

PEEM: 解釈可能なプロンプトとレスポンスの共同評価のための プロンプト設計評価指標

arXiv cs.CL / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • PEEMは、LLMのプロンプトとレスポンスの両方を対象とした統一的で解釈可能な評価フレームワークを提案します。3つのプロンプト基準と6つのレスポンス基準を網羅する9軸のルーブリックを用います。
  • LLMベースの評価者を用いて、ルーブリックに根ざした1-5のリッカート尺度のスコアと基準別の自然言語による合理を生成し、実用的な診断を可能にします。
  • 7つのベンチマークと5つのタスクモデルにおいて、PEEMの正確性軸は従来の正確性と密接に一致しつつモデルのランキングを維持します(Spearman約0.97、Pearson約0.94、p<0.001)。
  • 複数評価者による研究は、評価者に依存しない判断(ρ約0.68-0.85)を示しており、評価者依存性の少ない展開を支持します。さらに、摂動下での言語的欠陥モードを検出し、意味を保つ言い換えで高い安定性を示し、ゼロショットのプロンプト書き換えループにより下流の精度を最大11.7ポイント向上させます。
プロンプト設計は大規模言語モデル(LLM)の主要な制御インターフェースですが、標準的な評価は性能を回答の正確性のみに還元する傾向があり、プロンプトが成功する理由や失敗する理由を覆い隠し、実践的な指針をほとんど提供しません。我々は PEEM(Prompt Engineering Evaluation Metrics)を提案します。これはプロンプトとレスポンスの共同で解釈可能な評価のための統一フレームワークです。PEEM は9軸の構造化ルーブリックを定義します:3つのプロンプト基準(明確さ/構造、言語品質、公平性)と6つのレスポンス基準(正確性、一貫性、関連性、客観性、明確さ、簡潔さ)、そしてルーブリックに根ざした出力を行う LLM ベースの評価者を用い、(i) 1-5 のリッカート尺度のスカラー点と (ii) 各基準に対応する自然言語による根拠を出力します。7つのベンチマークと5つのタスクモデルをまたぐと、PEEM の正確性軸は従来の正確性と強く一致しつつ、モデルのランキングを維持します(総合 Spearman rho 約0.97、Pearson r 約0.94、p < 0.001)。4モデルを用いた多評価者研究では、一貫した相対判断(ρ = 0.68-0.85)が示され、評価者に依存しない展開を支持します。整合性を超えて、PEEM は補完的な言語的欠陥モードを捉え、プロンプトの摂動下でも有益な情報を提供します。例えば、プロンプト品質の動向は逐次的な書き換えの下流の正確性を追跡し、意味論的な敵対的操作は明確なスコア低下を誘発し、意味を保持する言い換えは高い安定性をもたらします(頑健性約76.7-80.6%)。最後に、PEEM のスコアと根拠だけをフィードバックとして使用すると、ゼロショットのプロンプト書き換えループが下流の正確性を最大で11.7ポイント向上させ、教師あり学習および RL ベースのプロンプト最適化のベースラインを上回ります。総じて、PEEM は再現性のある、基準駆動のプロトコルを提供し、プロンプトの設計とレスポンスの挙動を結びつけ、LLM の相互作用を体系的に診断・最適化することを可能にします。