[D] ICML 2026:Policy AとPolicy Bがスコアに与える影響に関する議論

Reddit r/MachineLearning / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 著者は、ICML 2026の査読結果が、2つの査読者LLM利用ポリシーの間で異なったかどうかを問うています。具体的には、LLMの使用を禁じるより厳格なポリシー(Policy A)と、限定的なLLM支援を許可する寛容なポリシー(Policy B)です。
  • 小規模で逸話的なサンプルおよびオンライン/コミュニティでの議論に基づき、著者はPolicy Aの論文の方が平均スコアが厳しくなっている可能性があり、査読のトーンもより洗練されていない、あるいはより懐疑的になっているのではないかと推測しています。
  • 想定されるメカニズムとして、LLM支援の査読は、より寛容なトーンを生み出し、より広範な背景知識を盛り込み、文章をより整った形にして、結果的に「疑いの余地を与える」確率を高める可能性が挙げられています。
  • 論文の選定や報告は自己選択的でノイズを含むため、著者は決定的な証拠として扱うのではなく、匿名の投票を通じてコミュニティからデータを集め、概況(ラフなスナップショット)を把握しようとしています。
  • 著者は、ある教授の見解として、ICMLがポリシー別のグループ間でスコアを正規化、またはzスコア化する可能性があると述べていますが、観測されたスコア分布と査読スタイルを比較することでその確認を求めています。

他の人も同じようなことを観測しましたか、気になっています。

ICML 2026では、論文は2種類のLLMレビュー方針のもとで査読できました。1つはより厳格な方針で、査読者はLLMを使うべきではないとされていました。もう1つはより許容的な方針で、限定的なLLM支援が許されていました。私は自分の論文では方針Aを選びました。

以下のような小さなサンプルに基づく印象ですが:

  • 自分のバッチ、
  • RedditやXで見かけたコメント、
  • そして周りの教授/ACとの議論、

方針Aの論文は、平均すると方針Bの論文よりも厳しめのスコアになっているように見えます。

もちろん、これは逸話であり、裏付けのある事実として主張するつもりはありません。しかし、正直なところ、もし本当なら腹立たしいです。私はほぼ1週間、できる限り丁寧にすべてのレビューを行ったのに、厳格な方針のもとでレビューされた論文のほうが、より許容的な方針でレビューされた論文よりも厳しく判断されたように感じてしまいました。

私の見立てでは、この結果はそれほど驚くものではないかもしれません。実際のところ、LLM支援付きのレビューでは次のようなことにつながり得ます:

  • より寛容なトーン、
  • レビューにより幅広い背景知識が注入される、
  • よりきれいで洗練された査読文になる、
  • そして場合によっては、疑念を与える側に回る傾向(つまり、疑わしい点があっても利益を与える)が高まる。

ローカルなサンプルでは、私たちが把握している方針Aの論文が約15本(査読されたもの/同僚からの情報)ありますが、私のスコアはどうやら最も高い部類のようです。ですが、それをオンラインで人々が報告している内容と比べると、平均にかなり近いように感じます(もちろん、自分のスコアを投稿しがちな人は、一般に平均以上のスコアになりやすいです)。それが、スコアの分布が方針によって違うのではないかと思った理由です。

ある教授は、ICMLがグループ間でスコアを正規化、つまりzスコア化するだろうと考えていますが、私はそれを前提にしたくありません。

そこで伺いたいです:

方針Aと方針Bの論文で、スコアやレビューのスタイルに違いがあるのを見つけましたか? できれば、あなたの論文とあなたのバッチのスコアを添えてコメントしていただけると助かります:

  • あなたの論文が使った方針、
  • あなたのスコアベクトル、
  • 査読された論文のスコア
  • レビューが不自然に厳しかった/寛しかった/洗練されていたかどうか。

これがクリーンなサンプルになるとは分かっていますが、それでも大まかなコミュニティのスナップショットであれば面白いと思います。

そこで、ICML 2026のレビュー方針ごとのスコアをラフに把握するための匿名の簡易投票を作りました:
https://docs.google.com/forms/d/e/1FAIpQLSdQilhiCx_dGLgx0tMVJ1NDX1URdJoUGIscFoPCpe6qE2Ph8w/viewform?usp=publish-editor

特定につながる情報は含めないでください。

もちろん、これはノイズが多く、自己選択バイアスもあるので、証拠として扱うつもりはなく、あくまでコミュニティのラフなスナップショットとして見ています。

十分な回答が集まれば、元の特定につながる生のテキスト回答を共有せずに、集計したパターンをReddit上で要約するかもしれません。

submitted by /u/Available_Net_6429
[link] [comments]