なぜMLカンファレンスの査読は「くじ引き」に感じることがあるのか

Reddit r/MachineLearning / 2026/5/2

💬 オピニオンIdeas & Deep Analysis

要点

  • MLカンファレンスの査読結果は、論文が明確に強い場合や明確に弱い場合には比較的予測しやすい。
  • 多くの人が「ランダムさ」として不満に感じるのは、良し悪しが判断しづらい“灰色の領域”にあるボーダーライン級の論文で、判定のばらつきが大きくなるためだ。
  • 投稿数の増加で査読者が手一杯になり、査読者の割り当ても完全ではなく、厳しい締切で確認・やり取りの余地が限られるため、些細な差が結果により大きく影響しやすい。
  • 強い研究グループ出身の人は影響を受けにくい傾向があり、文章の分かりやすさや位置づけによって“合格ライン”より上に乗せやすいからだ。
  • 結論として、仕組み全体が一律に壊れているわけではないが、採択の閾値付近では小さな要素が決め手になり、くじ引きのように感じられやすい。

「MLカンファレンスはくじ引きみたいなものだ」という主張を、いろいろ理解しようと試みてきましたが、正直なところ、何を意味するかによって「当たっている面もあるし、当たっていない面もある」と思います。

論文が明らかに強い、つまり本当にしっかりした貢献で、うまく実装されていて、理解しやすいなら、だいたい採択されます。逆に明らかに弱いなら、だいたいふるい落とされます。人々が奇妙だと文句を言うのは、主に論文が良いのに決定的ではないという、巨大な中間帯にあるのです。

そこでもスケールが効き始めます。投稿数がとにかく多くなったため、査読者は手薄になり、マッチングも完璧ではなく、みんな少しずつ異なる基準や好みを持っています。さらに厳しい締切と限られた往復(やり取り)を加えると、些細なことがとても重要になってきます。査読者が本当にあなたの貢献を「理解できるか」、どれくらい明確にそれを提示できているか、あるいは単に、その特定の査読者グループにどう受け取られるか——こうした要素で結果が大きく左右され得ます。

だからこそ、ランダムに感じるのだと思います。システム全体が壊れているからではなく、論文の大部分がちょうど判断の境界線のすぐそばに位置していて、そこでの判断は自然にばらつき(分散)が大きくなるからです。

強い研究グループ出身の人は、これをあまり経験しないことが多いです。より正確には、彼らはその「境界線上」のゾーンから自分たちの論文を押し出すのがうまい、ということです。文章がより洗練されていて、立ち位置(ポジショニング)がより強く、実行もより予測可能。結果として、彼らの仕事のより大きな割合が明確にその基準を上回ります。

つまり私の現在の見立てはこうです。全体としてはくじ引きではありませんが、少なくとも締切(カットオフ)の近くでは確実にくじ引きのように振る舞い、そしてそのあたりが、ほとんどの不満の原因になっています。

submitted by /u/Hope999991
[link] [comments]