広告

[D] ICML 2026査読ポリシー論争:100件の回答はPolicy Bのほうが高得点になり得ることを示唆する一方、Policy Aはより高い自信を示す

Reddit r/MachineLearning / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ICML 2026の査読ポリシーが評価結果に与えた影響の有無を検討するため、コミュニティによる自己選択型サーベイ(100件の回答)が共有された。
  • 反証査読スコアを除いた時点で、Policy Bの平均スコアが相対的に高い可能性がある一方、Policy Aのほうが査読者の自信(confidence)が高い傾向が示唆されている。
  • ただし、因果関係を証明できる公式データではなく、バイアスやサンプルの偏りがあり、記述的・暫定的な材料として解釈すべきだと強調されている。
  • 回答はPolicy Aが59件、Policy Bが41件で、平均スコアやスコア分散(SD)、平均confidenceの集計が提示されている。
  • 投稿者は、平均スコア、confidence、期待より厳しい評価感、レビューの完成度の印象といった観点で可視的な傾向を探す目的だったと述べている。
[D] ICML 2026 レビュー方針の議論:100件の回答は、政策Bのほうがスコアが高くなり得る一方で、政策Aは自信が高いことを示唆

1週間前、ICML 2026のレビュー方針が審査結果に影響した可能性があるのか、特に方針Aの論文が方針Bの論文よりも厳しく評価されたのではないか、という点を尋ねるスレッドを立てました。

元スレッド:https://www.reddit.com/r/MachineLearning/comments/1s387tx/d_icml_2026_policy_a_vs_policy_b_impact_on_scores/
投票:https://docs.google.com/forms/d/e/1FAIpQLSdQilhiCx_dGLgx0tMVJ1NDX1URdJoUGIscFoPCpe6qE2Ph8w/viewform?usp=header

目的は因果関係を証明することではありません。コミュニティの大まかなスナップショットを集め、次のような見える傾向があるかを確認したいだけでした:

  • 報告された平均スコア、
  • 報告された査読者の自信、
  • スコアが予想よりも厳しいと感じられたかどうか、
  • そしてレビューが特に丁寧に仕上げられていると感じられたかどうか。

さて、反論スコア(rebuttal scores)を出す前に、調査の現在の結果を共有したいと思います。

重要な免責事項

これらの結果はまだ結論に至るものではありません。これは自己選択型のコミュニティ投票であり、公式なデータセットではありません。また、考えられるバイアスの要因も多数あります。したがって、これは記述的・予備的なデータとして読み、どちらかの方針がより良い/悪い結果を引き起こしたという証明だとは受け取らないでください。それでも、1週間で100件の回答が集まったので、少なくとも議論するにはデータとして十分に面白いと思います。

サンプルサイズ

  • 合計100件の投稿
  • 平均スコアが有効な投稿99件
  • 平均自信が有効な投稿91件

方針別:

  • 方針A: 59件の回答
  • 方針B: 41件の回答

要約テーブル

Policy Responses Mean Score Score SD Mean Confidence Confidence Responses
Policy A 59 3.26 0.50 3.53 55
Policy B 41 3.43 0.63 3.35 36
Total 100 3.33* 0.56* 3.46** 91

* 有効な平均スコアの入力99件に基づく
** 有効な自信の入力91件に基づく

プロット1:方針別のスコア分布

選ばれた方針ごとのスコア分布

私が見ている最初の傾向:

1) 方針Bのほうが、現時点で報告された平均スコアがやや高い

現時点では、報告された平均スコアは方針B(3.43)のほうが方針A(3.26)より高いです。これは方針Bが因果的な意味で有利だったことを結論づけるものでは。しかし、その差は議論する価値があるほどにはっきり見えます。

2) 方針Aのほうが、現時点で報告された査読者の自信が高い

興味深いことに、自信のパターンは逆方向です。報告された査読者の平均自信は方針A(3.53)のほうが方針B(3.35)より高いのです。私にとって、このようなスコアと自信の逆比例的な関係は、現在のデータでより興味深いパターンの一つで、(この場合LLM)といった外部に推論を頼る人ほど、自分の意見に自信がないこと—たぶん論文を読み込むのに十分な時間を使っていなかったから—と解釈できるかもしれません。同時に、自分のレビューが妥当だと見なせることには、より懐疑的になります。

3) 両グループとも「予想より厳しい」に傾くが、その傾きは方針Aのほうが強い

Policy Harsher than expected About as expected More lenient than expected
Policy A 67.8% 28.8% 3.4%
Policy B 58.5% 29.3% 12.2%

つまり、両グループとも「スコアは予想より厳しかった」という感覚に傾いていますが、今回のサンプルではその傾向は方針Aのほうがより顕著です。ただしこれは、方針Aの平均スコアが低いことによっても説明できます。主観的には、方針Aの回答者が不公平に扱われたと感じやすくなるからです。

プロット3:方針別の「厳しさ」の認識

方針ごとの厳しさの分布。

4) 「特に丁寧に仕上げられた」レビューは、方針Bでずっと多く報告される

Policy No Somewhat Yes
Policy A 37.3% 49.2% 13.6%
Policy B 31.7% 36.6% 31.7%

ここでの最大の違いは「Yes(はい)」カテゴリです。今回のサンプルでは、方針Bのもとで回答した人のほうが、レビューを特に丁寧に仕上げられていたと表現する可能性がはるかに高いのです。もちろん、これがLLM利用を証明するわけではありませんし、この点を過大に強調したくもありません。しかし、これはそれでも元の議論に関連しているように見えるパターンです。

私の現時点での解釈

私の現時点での読み取りは次の通りです:

  • 方針Bのほうで報告されたスコアが高い方向への(何らかの)傾向がある
  • 方針Aのほうで報告された査読者の自信が高い方向への(何らかの)傾向がある
  • そしてレビューが特に丁寧に仕上げられていると説明される頻度に、目立った違いがあり、それは方針Bのほうでより多く報告されている

一方で、私はこれらのデータが、次のような強い結論を正当化するとは言っていません:

  • 「方針Bには明確に不公平な有利があった」
  • 「LLMがスコアを押し上げた(score inflation)原因になった」

ただし、これはオープンな議論を行うだけの根拠になります。

とはいえ、交絡要因が多すぎます:

  • この調査は自己選択型である、
  • この問題を気にしている人は、自分が影響を受けたと感じており、回答する可能性がより高い人である、
  • また、異なるサブ分野/論文の強み/査読者プールなどもすべて関係し得る。

この初期の結果について、ぜひ意見を聞かせてください

また、まだアンケートに回答していない場合は、ぜひお願いします。そして、特に両方の方針のもとにいる人たちにも共有してください。そうすれば、サンプルがより大きく、より有益で、より代表的になります。追加の回答が十分に集まれば、反論の後に追記も投稿できます。

動機

率直に言うと、このアンケートを行う動機は A) 最初に、潜在的に不公平な扱いを受けているのではないかと感じ、実情を知りたかったこと。さらに B) どんな種類のデータ分析も、ディベートも本当に大好きなことです。1週間後は、主に動機Bのためにやっています。

によって投稿 /u/Available_Net_6429
[リンク] [コメント]

広告