StressEval：大規模言語モデルにおける知識集約的推論のための失敗駆動型ダイナミック・ベンチマーク

arXiv cs.CL / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

知識集約的な推論タスクでは、静的なLLMベンチマークが汚染や過学習によって信頼性を失いがちであり、動的ベンチマークでも答えやすさや制御可能性とのトレードオフが生じる。
本論文では、観測されたモデルの失敗を動的で挑戦的かつ制御可能なテスト事例に変換する失敗駆動型のデータ合成フレームワーク「StressEval」を提案する。
StressEvalは、失敗した推論ステップとその根本原因を特定する難易度カード作成、知識ギャップと推論の破綻の両方を狙うデュアル視点の事例合成、そして根拠があり曖昧でない事例のみを残すゲーティングを行う。
複数の知識集約的推論データセットからDynamic OneEvalを構築し、複数の最先端LLMで元のベンチマークより大きな性能低下を引き起こしつつ、明示的な難易度要因を維持できることを示す。

要旨: LLMに対する静的ベンチマークは、特に知識集約的な推論タスクにおいて、汚染や過学習によってますます損なわれています。近年の動的ベンチマークは陳腐化（staleness）を緩和できるものの、しばしば、答えられること（answerability）や制御可能性（controllability）を犠牲にして難しさを増大させます。本論文では、観測されたモデルの失敗を、動的で挑戦的かつ制御可能なテスト事例へと変換する、失敗駆動型データ合成フレームワークであるStressEvalを提案します。StressEvalは3つの段階から成ります。第一に、それが失敗した推論ステップと、その根本原因を特定する半構造化された難易度カードを構築します。第二に、基盤となる難易度要因を保持しつつ、知識の欠落と推論の破綻の両方を狙う二重視点の事例合成手法を適用します。第三に、根拠があり曖昧でない事例のみを保持するゲーティング機構を適用します。複数の知識集約的推論データセットを種として、StressEvalを用いて、特化した挑戦的な動的ベンチマークであるDynamic OneEvalを構築します。複数の最先端のLLMに対して、Dynamic OneEvalは元のベンチマークよりも実質的に大きい性能低下をもたらす一方で、明示的な難易度要因を保持することで、より実行可能な反復改善を可能にします