近頃、NeurIPSとICLRはこれらのLLMベンチマーク論文であふれ返っています。彼らがやっているのは、ある問題Xを取り、それに対して多数の独自LLMをこの問題でベンチマークすることだけです。私が最も疑問に思うのは、これらの独自LLMがほぼ毎月更新されることです。以前のモデルは廃止され、時には利用できなくなることもあり、公開時にはすでに結果が時代遅れになっています。
それでは、そのような論文には一体何の意味があるのでしょうか?これらの論文の結果を大手テック企業が実際にモデルを改善するのに使用しているのでしょうか?
[リンク] [コメント]