AI Navigate

適用分野全体での最小対の拡張:順序的サプライザル曲線とエントロピー

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、最小対の評価を二値の文法性判断から順序尺度の分類へ拡張し、情報理論に基づくサプライザル(負の対数確率)とエントロピーを用いて、モデルの好む応答と不確実性の両方を捉える。
  • 評価スケールの各位置で負の対数確率(サプライザル)を計算することで、テキスト生成を必要とせず評価を行える。
  • この枠組みは、社会-生態-技術系システムの分類、因果的記述の識別、比喩表現の検出、演繹的定性的コーディングの4分野で実証され、解釈可能な信号を示す。
  • サプライザル曲線は、予想される尺度位置近傍で最小値を示し、本当に曖昧な項には高いエントロピーを示すことで、生成ベースの評価を超えるモデル知識のニュアンスを提供する。

要旨: 最小対のパラダイムは、対照的な補完を比較することでモデルの確率を評価することができ、言語モデルにおける言語知識を評価する際に有用であることが示されていますが、その適用は主に構文現象に対する二値的文法性判断に限定されてきました。さらに、標準のプロンプトベースの評価は高価なテキスト生成を必要とし、モデル判断よりも後付けの合理化を引き出す可能性があり、またモデルの不確実性に関する情報を破棄します。私たちは、surprisalベースの評価を二値の文法性対比から順序尺度に基づく分類・スコアリングタスクへと拡張することで、これらの制限の双方に対処します。モデルに回答を生成させるのではなく、評価スケールの各位置に割り当てられる情報理論的な「驚き」(負の対数確率)を測定し、(例: 1-5 または 1-9) の完全な surprisal カーブを得て、モデルの好む応答とその不確実性をエントロピーによって示します。私たちはこの枠組みを、社会-生態-技術システムの分類、因果的発言識別(二値およびスケール付き)、比喩的言語の検出、推論的定性的コーディングの4領域にわたって検討します。これらの領域全体で、surprisal カーブは解釈可能な分類信号を生み出し、期待される順序尺度位置の近くに明確な最小値を示します。また、補完全体のエントロピーは、真に曖昧な項目と容易な項目を識別する傾向がありました。