| https://paperreview.ai/tech-overview によると、2人の人間のスコアの相関は ICLR 2025 で約 0.41 ですが、私の現在のプロジェクトでは ICLR 2026 についてはかなり低い相関が見えています。そこで、2025年と2026年の両方について指標を計算してみたところ、結果がとんでもなかったです。使用したのは2つの指標で、1つは one-vs-rest の相関、もう1つは half-half split の相関です。すべてのデータは OpenReview から取得しています。 トップのコンファレンス(査読)レビューが、今や大部分の論文ではただのくじ引きになっているのは分かっていましたが、ここまで酷いとは思いませんでした。 2025 平均スコア SD: 1.253、平均(wavg-scoreer)人間の SD: 1.186 2026 平均スコア SD: 1.162、平均(within-paper human)人間の SD: 1.523
[リンク] [コメント] |
ICLR 2025と2026のスコアを分析しました(WOW [D])
Reddit r/MachineLearning / 2026/4/12
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage
要点
- OpenReviewデータから得た査読者スコア相関の指標を用いて、ICLR 2025とICLR 2026のレビュー・スコアのパターンを比較する分析です。
- ICLR 2025では異なる人間同士のレビューの相関が約0.41だった一方で、ICLR 2026では相関が大幅に低いことが観測された、と主張しています。
- 著者は年ごとにスコアのばらつきが異なることを報告しており、ICLR 2025の平均スコアの標準偏差が1.253、ICLR 2026のそれが1.162だと述べています。
- 査読対象論文内での人間の合意(within-paper human agreement)については、報告されている指標が2026年のほうが高く(論文内の人間SD 1.523)、2025年は1.186であり、レビュー意見のばらつきがより大きいことを示唆しています。
- 著者は、多くの論文にとって採否・レビュー結果が「くじのよう」になり得ると結論づけ、年をまたいだ変化の大きさに驚きを表しています。




