要約: 多くのベンチマークにわたって大規模言語モデルを評価することは高コストですが、多くのベンチマークは高度に相関しています。そこで、平均ベクトルが多変量ガウス分布に従うモデルのもとで、小さく有益な部分集合を選択することをサブモジュラ最大化として定式化します。選択したベンチマークと残りのベンチマークの間におけるエントロピー(対数決定因子の共分散)と相互情報量は、自然な目的関数として現れます。いずれもサブモジュラです。エントロピーによる選択はピボット付きコレスキーと一致し、スペクトル残差の上界を満たします。一方、相互情報量は一般には単調性を持ちませんが、実験的には小さな部分集合に対して単調であることが示されるため、それを貪欲法で最適化します。公開されている10のリーダーボードからの3つの行列に対する実験により、小さな部分集合では、欠測補完(imputation)において相互情報量による選択がエントロピーによる選択を上回ることがわかりました。
サブモジュラー・ベンチマーク選択
arXiv cs.AI / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多数の相関するベンチマークに対するLLM評価コストが高いという課題を、母集団を多変量ガウスとして仮定したサブモジュラー最大化としてベンチマークの部分集合選択を定式化します。
- 選択したベンチマークと未選択のベンチマークの間のエントロピー(共分散のログ行列式)と相互情報量を自然な目的関数として導出し、エントロピーはサブモジュラーであること、またピボット付きコレスキーと結び付くことやスペクトル残差の境界が得られることを示します。
- 相互情報量は一般には単調でないものの、小さな部分集合では経験的に単調であるため、貪欲(グリーディ)最適化が有効になると述べています。
- 公開リーダーボード10個から作成した3つの行列での実験では、小さな部分集合でのインピュテーションにおいて相互情報量ベースの選択がエントロピー基準より優れることが示されました。




