評価の前に最適化を:最適化されていないプロンプトでの評価は誤解を招きうる
arXiv cs.AI / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 現在のLLM評価フレームワークでは、評価対象の各モデルに同一の静的プロンプトテンプレートを使うことが一般的だが、業界ではモデルごとにプロンプト最適化(PO)を行ってアプリケーション性能を最大化する実務と食い違っている。
- 本論文はプロンプト最適化(PO)がLLM評価に与える影響を検証し、その結果が評価結果やモデルの順位付けを大きく変えうることを示している。
- 公開されている学術ベンチマークと社内の産業ベンチマークでの実験により、POが最終的に「どのモデルが最良に見えるか」に強く影響することが確認された。
- 著者らは、特定のタスクに対して最適なモデルを選ぶためには、評価時にモデルごとにPOを実施すべきだと結論づけている。
- 総じて、この研究は最適化されていないプロンプトで評価するとモデルの品質に関する判断が誤り得ることを警告している。