他の人も同じようなことを観測しましたか、気になっています。
ICML 2026では、論文は2種類のLLMレビュー方針のもとで査読できました。1つはより厳格な方針で、査読者はLLMを使うべきではないとされていました。もう1つはより許容的な方針で、限定的なLLM支援が許されていました。私は自分の論文では方針Aを選びました。
以下のような小さなサンプルに基づく印象ですが:
- 自分のバッチ、
- RedditやXで見かけたコメント、
- そして周りの教授/ACとの議論、
方針Aの論文は、平均すると方針Bの論文よりも厳しめのスコアになっているように見えます。
もちろん、これは逸話であり、裏付けのある事実として主張するつもりはありません。しかし、正直なところ、もし本当なら腹立たしいです。私はほぼ1週間、できる限り丁寧にすべてのレビューを行ったのに、厳格な方針のもとでレビューされた論文のほうが、より許容的な方針でレビューされた論文よりも厳しく判断されたように感じてしまいました。
私の見立てでは、この結果はそれほど驚くものではないかもしれません。実際のところ、LLM支援付きのレビューでは次のようなことにつながり得ます:
- より寛容なトーン、
- レビューにより幅広い背景知識が注入される、
- よりきれいで洗練された査読文になる、
- そして場合によっては、疑念を与える側に回る傾向(つまり、疑わしい点があっても利益を与える)が高まる。
ローカルなサンプルでは、私たちが把握している方針Aの論文が約15本(査読されたもの/同僚からの情報)ありますが、私のスコアはどうやら最も高い部類のようです。ですが、それをオンラインで人々が報告している内容と比べると、平均にかなり近いように感じます(もちろん、自分のスコアを投稿しがちな人は、一般に平均以上のスコアになりやすいです)。それが、スコアの分布が方針によって違うのではないかと思った理由です。
ある教授は、ICMLがグループ間でスコアを正規化、つまりzスコア化するだろうと考えていますが、私はそれを前提にしたくありません。
そこで伺いたいです:
方針Aと方針Bの論文で、スコアやレビューのスタイルに違いがあるのを見つけましたか? できれば、あなたの論文とあなたのバッチのスコアを添えてコメントしていただけると助かります:
- あなたの論文が使った方針、
- あなたのスコアベクトル、
- 査読された論文のスコア
- レビューが不自然に厳しかった/寛しかった/洗練されていたかどうか。
これがクリーンなサンプルになるとは分かっていますが、それでも大まかなコミュニティのスナップショットであれば面白いと思います。
そこで、ICML 2026のレビュー方針ごとのスコアをラフに把握するための匿名の簡易投票を作りました:
https://docs.google.com/forms/d/e/1FAIpQLSdQilhiCx_dGLgx0tMVJ1NDX1URdJoUGIscFoPCpe6qE2Ph8w/viewform?usp=publish-editor
特定につながる情報は含めないでください。
もちろん、これはノイズが多く、自己選択バイアスもあるので、証拠として扱うつもりはなく、あくまでコミュニティのラフなスナップショットとして見ています。
十分な回答が集まれば、元の特定につながる生のテキスト回答を共有せずに、集計したパターンをReddit上で要約するかもしれません。
[link] [comments]
