Brittlebench: プロンプト感度を用いたLLMの頑健性の定量化

arXiv cs.LG / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

Brittlebenchは、プロンプトのバリアントに対するLLMの感度を定量化し、データの難易度とプロンプト関連の変動を分離する理論的フレームワークです。
人気のベンチマークに対して意味を保つ摂動を用い、性能が最大で12%低下すること、また単一の摂動が63%のケースでモデルのランキングを変えることができることを示します。
分散分解により、意味を保つプロンプトの変更は、モデルの性能分散の最大で半分を説明する可能性があることを示し、現在の評価手法の限界を強調します。
Brittlebenchは、モデルの脆さを研究し、より頑健なモデル開発を導く新しい評価パイプラインを提供します。

要旨: 既存の評価手法は主にクリーンで静的なベンチマークに依存しており、実世界のユーザー入力に内在するノイズやばらつきを捉え切れないため、真のモデル性能を過大評価しがちです。これは特に言語モデルに当てはまり、人間が生成したテキストクエリには誤り、タイプミス、同じ質問の別の言い回しが含まれることがあります。本研究では、プロンプトの変異に対するモデルの感度、すなわち脆さを定量化する理論的枠組みを導入し、データ由来の難易度とプロンプト関連のばらつきを分離できるようにします。この枠組みを用いて、最先端モデルの感度を総合的に評価する新しい評価パイプラインであるBrittlebenchを設計します。意味論を保持する摂動を一連の人気ベンチマークに適用し、モデルの性能が最大で12%低下することを観察しました。ただし、これらの摂動はすべてのモデルに同じようには影響しません。1つの摂動であっても63%のケースでモデルの相対的なランキングが変わり、比較的なモデル性能に関する結論に影響を及ぼします。最先端のオープンウェイトモデルと商用モデルの総分散を分解すると、意味論を保持した入力の摂動が、特定のモデルに対する性能分散を最大半分程度説明し得ることが分かります。 Brittlebenchは、より頑健な評価とモデルの必要性を浮き彫りにし、モデルの脆さを体系的に理解することを可能にします。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Brittlebench: プロンプト感度を用いたLLMの頑健性の定量化

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer