ICLRのスコア分析について最後に投稿した後、今度はレビュー自体を調べています。
彼らは、自然言語の指標を使ってLLMによるSQLコード生成を評価しており、実行(execution)の指標ではありませんでした。そしてそれをテストしたところ、約20%の偽陽性率が見つかったそうです。これは重大な欠陥ですが、どうしてそれが採択されているのでしょうか?
[リンク] [コメント]
Reddit r/MachineLearning / 2026/4/15
ICLRのスコア分析について最後に投稿した後、今度はレビュー自体を調べています。
彼らは、自然言語の指標を使ってLLMによるSQLコード生成を評価しており、実行(execution)の指標ではありませんでした。そしてそれをテストしたところ、約20%の偽陽性率が見つかったそうです。これは重大な欠陥ですが、どうしてそれが採択されているのでしょうか?