ICLR 2025のオーラル論文を見ていたのですが、まさかオーラルに選ばれたことに衝撃を受けました [D]

Reddit r/MachineLearning / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep Analysis

要点

  • Redditのユーザーが、ICLR 2025のオーラル論文をレビューし、著者らが実行ベースの検証ではなく自然言語の指標を用いて、LLMによるSQLコード生成を評価したと主張しています。
  • ユーザーは、著者らがテストにおいておよそ20%の偽陽性率(false positive rate)を見つけたと述べ、そのことが重大な方法論上の欠陥だと論じています。
  • この投稿では、(疑われている)評価上の問題があるにもかかわらず、どのようにしてその論文がオーラル発表として採択されたのかを問いかけています。
  • 議論では、読者が査読内容や手法そのものを確認できるように、論文のOpenReview掲載ページへのリンクが示されています。

ICLRのスコア分析について最後に投稿した後、今度はレビュー自体を調べています。

彼らは、自然言語の指標を使ってLLMによるSQLコード生成を評価しており、実行(execution)の指標ではありませんでした。そしてそれをテストしたところ、約20%の偽陽性率が見つかったそうです。これは重大な欠陥ですが、どうしてそれが採択されているのでしょうか?

https://openreview.net/forum?id=GGlpykXDCa

提出者 /u/Striking-Warning9533
[リンク] [コメント]