スコアとテキストを切り離す：査読におけるポライトネスの原理

arXiv cs.LG / 2026/4/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、30,000件超のICLR投稿（2021〜2025年）を対象に、数値スコアと自由記述の査読文の間で予測力を比較し、著者がフィードバックを誤解しやすい理由を検証します。
数値ベースのモデルは約91%の精度に達する一方、テキストベースのモデルは約81%で、LLMを用いても差が大きいことから、テキスト情報の信頼性が相対的に低いと示されています。
数値ベースのモデルが外すケースでは、スコア分布に高い尖度と負の歪度が見られ、平均が境界付近でも「個別の低いスコア」が採否を決定的に左右することが示唆されます。
感情分析の観点では、テキストの弱い信号はポライトネスの原理によるものだと説明されます。つまり、不採択となった論文の査読文にはポジティブな語がネガティブより多く含まれ、不採択の手がかりが隠れてしまうのです。

Abstract

著者はしばしば査読フィードバックを解釈するのに苦労し、丁寧なコメントから誤った期待を抱いたり、特定の低いスコアに戸惑ったりします。これを調査するために、ICLR 2021-2025の投稿を3万件超で構成したデータセットを構築し、数値スコアとテキストの査読に基づく採否予測の性能を比較します。実験の結果、顕著な性能差が明らかになりました。スコアに基づくモデルは91%の精度を達成する一方で、テキストに基づくモデルは大規模言語モデルを用いても81%にとどまります。これは、テキスト情報の信頼性がかなり低いことを示しています。この現象を説明するために、まずスコアに基づくモデルが予測に失敗するサンプルの9%を分析し、それらのスコア分布が高い尖度と負の歪度を示すことを見いだします。これは、平均スコアが境界付近にある場合でも、個々の低いスコアが却下の決定的な役割を果たしていることを示唆します。次に、レビューの感情（sentiment）という観点から見ると、なぜテキストに基づく精度がスコアより大きく遅れを示すのかを検討し、そこに「丁寧さの原理（Politeness Principle）」が広くみられることを明らかにします。却下された論文のレビューであっても、肯定的な感情語が否定的な感情語より多く含まれており、真の却下シグナルが隠れてしまうため、著者はテキストだけから結果を判断することが難しくなります。