要約: 私たちは **CRYSTAL** (*__C__lear __R__easoning via __Y__ielded __S__teps, __T__raceability and __L__ogic*)、検証可能な中間ステップを通じたマルチモーダル推論を評価する6,372のインスタンスを持つ診断ベンチマークを紹介します。私たちは2つの補完的な指標を提案します。*Match F1* はセマンティック類似性マッチングによってステップレベルの適合率と再現率を評価し、*Ordered Match F1* はさらに乱れた推論チェーンを罰します。参照は Delphi に着想を得たパイプラインを通じて構築され、4つの独立した MLLMs が軌道を生成し、セマンティッククラスタリングで集約され、人間の品質ゲートによって検証されます。ベンチマーク構築時に使用されなかった商用フロンティア系システムを含む20のMLLMの評価は、正確さには見えない体系的な失敗を明らかにします:普遍的なチェリーピッキング(適合率が再現率を大きく上回る)、非単調なスケーリングのトレードオフ、そして正しい順序で一致したステップの60%を超えて保持できない乱雑な推論。評価を超えて、私たちは **Causal Process Reward (CPR)**、回答の正確さとステップレベルの整列を結ぶ乗法的報酬、そして **CPR-Curriculum** を提案します。CPR-Curriculum は訓練中に推論の難易度を段階的に高め、GRPO によって +32% の Match F1 を達成します。加法的報酬戦略が失敗する場合には、手動のステップ注釈なしで推論を改善します。
最終回答を超えて:透明なマルチモーダル推論評価のための CRYSTAL ベンチマーク
arXiv cs.AI / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- CRYSTALは、検証可能な中間ステップを通じてマルチモーダル推論を評価する診断用ベンチマークで、6,372のデータ点を含み、2つの指標として Match F1 と Ordered Match F1 を導入する。
- Delphiに着想を得たパイプラインを用い、4つの独立したマルチモーダル大規模言語モデル(MLLMs)が軌跡を生成し、それらを意味的にクラスタリングして、人間の品質ゲートを通じて検証する。
- ベンチマークの構築時に使用されなかった商用フロンティア系のシステムを含む20のMLLMを対象に評価を行うと、正確性評価だけでは検出できない体系的な失敗が明らかになる。例えば普遍的なチェリーピックや推論の乱れといった現象が見られる。
- これらの問題に対処するため、著者らは因果過程報酬(CPR)と CPR-Curriculum を提案し、CPR-Curriculum は GRPO を介して Match F1 を +32% 改善し、手動のステップ注釈への依存を減らす。
