[R] 最終回答を超えて：透明性のあるマルチモーダル推論評価のCRYSTALベンチマーク

Reddit r/MachineLearning / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

CRYSTALを公開しました。CRYSTALは6,372問のマルチモーダル質問を含み、最終的な回答ではなく真の推論を測定するための段階的推論を検証したベンチマークです。
20モデルを評価した結果、ほとんどのモデルが実際の思考の大半を省略して正解を得ており、正解率は高い一方で推論の再現性は乏しいことがわかりました。
CPRカリキュラム報酬を導入して推論性能を向上させ、Qwen2.5 VL 3Bで+32%、InternVL3.5 4Bで+93%の改善を報告したが、モデルによって結果は異なります。
著者らは、複数の有効な推論パスが存在すること、ステップのマッチング閾値が不完全であること、70B超の非常に大規模モデルを十分に検証していないこと、因果関係の依存性を完全には捉えきれていないこと、などの限界を認めています。

皆さん、こんにちは、

クイック共有：私たちは論文を公開しました（https://arxiv.org/abs/2603.13099） — 最終的な答えだけでモデルを評価するのをやめ、実際に問題を推論して解いているかどうかを見始めました。

TL;DR: 私たちはCRYSTALを構築し、検証済みの逐次推論を伴う6,372の視覚質問を用意しました。20モデルをテストしました。結論は？ほとんどのモデルは正しい答えを言うのは非常に得意だが、実際の思考のほとんどを省略している。

おもしろいところ：

新しい報酬（CPR Curriculum）を用いた訓練も行い、モデルに実際に推論させ、推測だけに頼らないようにしました。Qwen2.5 VL 3Bで推論の改善が+32%、InternVL3.5 4Bでは+93%となり、標準の報酬はNaNへ崩れてしまうケースがあったところで顕著な改善を得ました。

ここが不足している点：

正しい推論経路は1つではありません。我々の参照は、4つのMLLM＋人間の検証に基づきますが、別の推論をしても正解になる場合があります。すべての有効な連鎖を捉えることはできません。
ステップ照合は固定閾値（0.35）を用いたコサイン類似度です。人間と一致するのは84%の頻度で、閾値以下では100%一致（偽陽性ゼロ）ですが、境界領域（0.35〜0.70）は扱いが難しく、最も多くの不一致が生じる領域です。
CPR CurriculumをQwen2.5 VL 3BとInternVL3.5 4Bでトレーニングしました。2つのモデル、2つのアーキテクチャ。両方でうまく機能しましたが、70B+規模でのテストはまだです。
Ordered Match F1は手順が連続しているかをチェックしますが、ステップ3がステップ2に依存するかどうかは分かりません。因果構造は別の難題で、まだ取り組んでいません。

結論として：これはモデルの推論についてすべてを教えてくれるわけではありませんが、精度だけでは決して知ることのできないことを教えてくれます。

HuggingFaceのデータセットは近日公開予定です。

フィードバックは歓迎します。よろしければ遠慮なく私たちを酷評してください。

日経XTECH

日経XTECH

Innovatopia

Qiita

GIGAZINE