| 1週間前、ICML 2026のレビュー方針が審査結果に影響した可能性があるのか、特に方針Aの論文が方針Bの論文よりも厳しく評価されたのではないか、という点を尋ねるスレッドを立てました。 元スレッド:https://www.reddit.com/r/MachineLearning/comments/1s387tx/d_icml_2026_policy_a_vs_policy_b_impact_on_scores/ 目的は因果関係を証明することではありません。コミュニティの大まかなスナップショットを集め、次のような見える傾向があるかを確認したいだけでした:
さて、反論スコア(rebuttal scores)を出す前に、調査の現在の結果を共有したいと思います。 重要な免責事項これらの結果はまだ結論に至るものではありません。これは自己選択型のコミュニティ投票であり、公式なデータセットではありません。また、考えられるバイアスの要因も多数あります。したがって、これは記述的・予備的なデータとして読み、どちらかの方針がより良い/悪い結果を引き起こしたという証明だとは受け取らないでください。それでも、1週間で100件の回答が集まったので、少なくとも議論するにはデータとして十分に面白いと思います。 サンプルサイズ
方針別:
要約テーブル
* 有効な平均スコアの入力99件に基づく プロット1:方針別のスコア分布私が見ている最初の傾向:1) 方針Bのほうが、現時点で報告された平均スコアがやや高い現時点では、報告された平均スコアは方針B(3.43)のほうが方針A(3.26)より高いです。これは方針Bが因果的な意味で有利だったことを結論づけるものでは。しかし、その差は議論する価値があるほどにはっきり見えます。 2) 方針Aのほうが、現時点で報告された査読者の自信が高い興味深いことに、自信のパターンは逆方向です。報告された査読者の平均自信は方針A(3.53)のほうが方針B(3.35)より高いのです。私にとって、このようなスコアと自信の逆比例的な関係は、現在のデータでより興味深いパターンの一つで、(この場合LLM)といった外部に推論を頼る人ほど、自分の意見に自信がないこと—たぶん論文を読み込むのに十分な時間を使っていなかったから—と解釈できるかもしれません。同時に、自分のレビューが妥当だと見なせることには、より懐疑的になります。 3) 両グループとも「予想より厳しい」に傾くが、その傾きは方針Aのほうが強い
つまり、両グループとも「スコアは予想より厳しかった」という感覚に傾いていますが、今回のサンプルではその傾向は方針Aのほうがより顕著です。ただしこれは、方針Aの平均スコアが低いことによっても説明できます。主観的には、方針Aの回答者が不公平に扱われたと感じやすくなるからです。 プロット3:方針別の「厳しさ」の認識4) 「特に丁寧に仕上げられた」レビューは、方針Bでずっと多く報告される
ここでの最大の違いは「Yes(はい)」カテゴリです。今回のサンプルでは、方針Bのもとで回答した人のほうが、レビューを特に丁寧に仕上げられていたと表現する可能性がはるかに高いのです。もちろん、これがLLM利用を証明するわけではありませんし、この点を過大に強調したくもありません。しかし、これはそれでも元の議論に関連しているように見えるパターンです。 私の現時点での解釈私の現時点での読み取りは次の通りです:
一方で、私はこれらのデータが、次のような強い結論を正当化するとは言っていません:
ただし、これはオープンな議論を行うだけの根拠になります。 とはいえ、交絡要因が多すぎます:
この初期の結果について、ぜひ意見を聞かせてくださいまた、まだアンケートに回答していない場合は、ぜひお願いします。そして、特に両方の方針のもとにいる人たちにも共有してください。そうすれば、サンプルがより大きく、より有益で、より代表的になります。追加の回答が十分に集まれば、反論の後に追記も投稿できます。 動機率直に言うと、このアンケートを行う動機は A) 最初に、潜在的に不公平な扱いを受けているのではないかと感じ、実情を知りたかったこと。さらに B) どんな種類のデータ分析も、ディベートも本当に大好きなことです。1週間後は、主に動機Bのためにやっています。 [リンク] [コメント] |
[D] ICML 2026査読ポリシー論争:100件の回答はPolicy Bのほうが高得点になり得ることを示唆する一方、Policy Aはより高い自信を示す
Reddit r/MachineLearning / 2026/4/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- ICML 2026の査読ポリシーが評価結果に与えた影響の有無を検討するため、コミュニティによる自己選択型サーベイ(100件の回答)が共有された。
- 反証査読スコアを除いた時点で、Policy Bの平均スコアが相対的に高い可能性がある一方、Policy Aのほうが査読者の自信(confidence)が高い傾向が示唆されている。
- ただし、因果関係を証明できる公式データではなく、バイアスやサンプルの偏りがあり、記述的・暫定的な材料として解釈すべきだと強調されている。
- 回答はPolicy Aが59件、Policy Bが41件で、平均スコアやスコア分散(SD)、平均confidenceの集計が提示されている。
- 投稿者は、平均スコア、confidence、期待より厳しい評価感、レビューの完成度の印象といった観点で可視的な傾向を探す目的だったと述べている。




