要旨: 既存の評価手法は主にクリーンで静的なベンチマークに依存しており、実世界のユーザー入力に内在するノイズやばらつきを捉え切れないため、真のモデル性能を過大評価しがちです。これは特に言語モデルに当てはまり、人間が生成したテキストクエリには誤り、タイプミス、同じ質問の別の言い回しが含まれることがあります。本研究では、プロンプトの変異に対するモデルの感度、すなわち脆さを定量化する理論的枠組みを導入し、データ由来の難易度とプロンプト関連のばらつきを分離できるようにします。この枠組みを用いて、最先端モデルの感度を総合的に評価する新しい評価パイプラインであるBrittlebenchを設計します。意味論を保持する摂動を一連の人気ベンチマークに適用し、モデルの性能が最大で12%低下することを観察しました。ただし、これらの摂動はすべてのモデルに同じようには影響しません。1つの摂動であっても63%のケースでモデルの相対的なランキングが変わり、比較的なモデル性能に関する結論に影響を及ぼします。最先端のオープンウェイトモデルと商用モデルの総分散を分解すると、意味論を保持した入力の摂動が、特定のモデルに対する性能分散を最大半分程度説明し得ることが分かります。 Brittlebenchは、より頑健な評価とモデルの必要性を浮き彫りにし、モデルの脆さを体系的に理解することを可能にします。
Brittlebench: プロンプト感度を用いたLLMの頑健性の定量化
arXiv cs.LG / 2026/3/17
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- Brittlebenchは、プロンプトのバリアントに対するLLMの感度を定量化し、データの難易度とプロンプト関連の変動を分離する理論的フレームワークです。
- 人気のベンチマークに対して意味を保つ摂動を用い、性能が最大で12%低下すること、また単一の摂動が63%のケースでモデルのランキングを変えることができることを示します。
- 分散分解により、意味を保つプロンプトの変更は、モデルの性能分散の最大で半分を説明する可能性があることを示し、現在の評価手法の限界を強調します。
- Brittlebenchは、モデルの脆さを研究し、より頑健なモデル開発を導く新しい評価パイプラインを提供します。