皆さん、こんにちは、
クイック共有:私たちは論文を公開しました(https://arxiv.org/abs/2603.13099) — 最終的な答えだけでモデルを評価するのをやめ、実際に問題を推論して解いているかどうかを見始めました。
TL;DR: 私たちはCRYSTALを構築し、検証済みの逐次推論を伴う6,372の視覚質問を用意しました。20モデルをテストしました。結論は?ほとんどのモデルは正しい答えを言うのは非常に得意だが、実際の思考のほとんどを省略している。
おもしろいところ:
- GPT5は精度58%を出しますが、推論ステップのうち48%しか回収できません。基本的には正解に合わせているだけです。
- Gemma3 4BはInternVL3.5 38Bより推論能力が上回る。約9.5倍小さい。サイズが全てではない。
- 19/20のモデルは都合の良い点だけを取り出し、いくつかの正しい点を述べ、残りは省く。高い精度だが再現率はひどい。
- どのモデルも推論の手順を正しい順序で保持できるのは、60%を超える頻度ではありません。
新しい報酬(CPR Curriculum)を用いた訓練も行い、モデルに実際に推論させ、推測だけに頼らないようにしました。Qwen2.5 VL 3Bで推論の改善が+32%、InternVL3.5 4Bでは+93%となり、標準の報酬はNaNへ崩れてしまうケースがあったところで顕著な改善を得ました。
ここが不足している点:
- 正しい推論経路は1つではありません。我々の参照は、4つのMLLM+人間の検証に基づきますが、別の推論をしても正解になる場合があります。すべての有効な連鎖を捉えることはできません。
- ステップ照合は固定閾値(0.35)を用いたコサイン類似度です。人間と一致するのは84%の頻度で、閾値以下では100%一致(偽陽性ゼロ)ですが、境界領域(0.35〜0.70)は扱いが難しく、最も多くの不一致が生じる領域です。
- CPR CurriculumをQwen2.5 VL 3BとInternVL3.5 4Bでトレーニングしました。2つのモデル、2つのアーキテクチャ。両方でうまく機能しましたが、70B+規模でのテストはまだです。
- Ordered Match F1は手順が連続しているかをチェックしますが、ステップ3がステップ2に依存するかどうかは分かりません。因果構造は別の難題で、まだ取り組んでいません。
結論として:これはモデルの推論についてすべてを教えてくれるわけではありませんが、精度だけでは決して知ることのできないことを教えてくれます。
GitHub: https://github.com/waybarrios/crystal-benchmark
HuggingFaceのデータセットは近日公開予定です。
フィードバックは歓迎します。よろしければ遠慮なく私たちを酷評してください。
[リンク] [コメント]

