ICLR 2025と2026のスコアを分析しました（WOW [D]）

Reddit r/MachineLearning / 2026/4/12

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

共有:

要点

OpenReviewデータから得た査読者スコア相関の指標を用いて、ICLR 2025とICLR 2026のレビュー・スコアのパターンを比較する分析です。
ICLR 2025では異なる人間同士のレビューの相関が約0.41だった一方で、ICLR 2026では相関が大幅に低いことが観測された、と主張しています。
著者は年ごとにスコアのばらつきが異なることを報告しており、ICLR 2025の平均スコアの標準偏差が1.253、ICLR 2026のそれが1.162だと述べています。
査読対象論文内での人間の合意（within-paper human agreement）については、報告されている指標が2026年のほうが高く（論文内の人間SD 1.523）、2025年は1.186であり、レビュー意見のばらつきがより大きいことを示唆しています。
著者は、多くの論文にとって採否・レビュー結果が「くじのよう」になり得ると結論づけ、年をまたいだ変化の大きさに驚きを表しています。

Just did an analysis on ICLR 2025 vs 2026 scores and WOW [D]

https://paperreview.ai/tech-overview によると、2人の人間のスコアの相関は ICLR 2025 で約 0.41 ですが、私の現在のプロジェクトでは ICLR 2026 についてはかなり低い相関が見えています。そこで、2025年と2026年の両方について指標を計算してみたところ、結果がとんでもなかったです。使用したのは2つの指標で、1つは one-vs-rest の相関、もう1つは half-half split の相関です。すべてのデータは OpenReview から取得しています。

トップのコンファレンス（査読）レビューが、今や大部分の論文ではただのくじ引きになっているのは分かっていましたが、ここまで酷いとは思いませんでした。

2025 平均スコア SD: 1.253、平均（wavg-scoreer）人間の SD: 1.186

2026 平均スコア SD: 1.162、平均（within-paper human）人間の SD: 1.523

https://preview.redd.it/klay6nijipug1.png?width=2090&format=png&auto=webp&s=92c85470bc72ff03584f38f160d3d09f530b55e2

2025 平均スコア SD: 1.253、平均（within-paper human）人間の SD: 1.186
2026 平均スコア SD: 1.162、平均（within-paper human）人間の SD: 1.523

submitted by /u/Striking-Warning9533
[リンク] [コメント]

Black Hat USA

AI Business

Black Hat Asia

AI Business

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

日経XTECH

ファンAIリサーチブランド｜電通、”ファンが生まれる瞬間”をAIで解剖する時代が来た

Innovatopia

ICLR 2025と2026のスコアを分析しました（WOW [D]）

要点

関連記事

Black Hat USA

Black Hat Asia

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

ファンAIリサーチブランド｜電通、”ファンが生まれる瞬間”をAIで解剖する時代が来た

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

Black Hat Asia

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

新モデル「Claude Mythos」の衝撃 数千の脆弱性を発見、一般公開せず

ファンAIリサーチ ブランド｜電通、”ファンが生まれる瞬間”をAIで解剖する時代が来た

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

ファンAIリサーチブランド｜電通、”ファンが生まれる瞬間”をAIで解剖する時代が来た