ICLR 2025のオーラル論文を見ていたのですが、まさかオーラルに選ばれたことに衝撃を受けました [D]

Reddit r/MachineLearning / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep Analysis

共有:

要点

Redditのユーザーが、ICLR 2025のオーラル論文をレビューし、著者らが実行ベースの検証ではなく自然言語の指標を用いて、LLMによるSQLコード生成を評価したと主張しています。
ユーザーは、著者らがテストにおいておよそ20%の偽陽性率（false positive rate）を見つけたと述べ、そのことが重大な方法論上の欠陥だと論じています。
この投稿では、（疑われている）評価上の問題があるにもかかわらず、どのようにしてその論文がオーラル発表として採択されたのかを問いかけています。
議論では、読者が査読内容や手法そのものを確認できるように、論文のOpenReview掲載ページへのリンクが示されています。

ICLRのスコア分析について最後に投稿した後、今度はレビュー自体を調べています。

彼らは、自然言語の指標を使ってLLMによるSQLコード生成を評価しており、実行（execution）の指標ではありませんでした。そしてそれをテストしたところ、約20%の偽陽性率が見つかったそうです。これは重大な欠陥ですが、どうしてそれが採択されているのでしょうか？