構造化アウトプット・ベンチマーク(SOB)—JSONのパースだけでなく値の正確性も検証

Reddit r/MachineLearning / 2026/4/29

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • 構造化アウトプット・ベンチマーク(SOB)は、従来のベンチマークがJSONの妥当性(スキーマ/型)に偏りがちであり、よりよく起きる失敗である「JSON値の誤り(幻覚含む)」を見落としている点を指摘している。
  • SOBは7つの指標で評価を行い、Value Accuracy(検証済みの正解に対するリーフ値の完全一致)やFaithfulness(文脈に根ざしているか/幻覚か)に加え、JSON Pass Rate・Type Safety・Path Recall・Structure Coverageといった構造面の指標も測定する。
  • 結果として、JSONスキーマのパス率(しばしば90%+)と値の正確性の間に大きなギャップがあることが示され、モデルは有効なJSONを生成しても値の抽出を誤る可能性がある。
  • 全体ランキングではオープンソース勢の健闘が報告されており、GLM 4.7がGPT 5.4のすぐ下で2位に入ったとされるほか、テキスト/画像/音声のモダリティ別にも性能を分析している。
  • コードとデータセットはオープンソースとして提供され、決定論的で制御可能な構造化出力の改善を、ベンチマークを通じて業界全体により高い基準を求めることを目的としている。

現在の構造化出力のベンチマークは、jsonスキーマと型に対する合格率のみを検証していますが、より一般的に問題となりがちなのは、不正確なjson値です。

たとえば、請求書から値を抽出するときに幻覚された `total_price` の数値や、不正確な日付マッピングによって配列の順序が誤ってしまうといったケースです。

構造化出力ベンチマークは、jsonスキーマの代わりに7つの主要な指標を測定します。

  • 値の正確性(主): 検証済みの正解データに対する、完全一致のリーフ値のマッチ
  • JSON合格率、型の安全性、パス再現率、構造カバレッジ(構造)
  • 忠実性: 値は文脈に基づいているのか、それとも幻覚なのか?
  • 完全な応答: すべてのリーフ値が正しい
  • モダリティ: テキスト、画像、音声

全体結果

全体ベンチマーク結果

オープンソースはかなり好調で、GLM 4.7が2位、GPT 5.4の直下です。

JSON合格率 vs 値の正確性のギャップ

JSON合格率 vs 値の正確性のギャップ

ここで興味深いのは、ほとんどのモデルがJSONスキーマ合格で90%超を達成している一方で、どのモデルも値の正確性では大きく落ちてしまう点です。

モダリティ別 最優秀

モダリティ別 最優秀

詳細な内訳のブログ: https://interfaze.ai/blog/introducing-structured-output-benchmark
フルリーダーボード: https://interfaze.ai/leaderboards/structured-output-benchmark
論文: https://interfaze.ai/sob_paper.pdf (arXivは未掲載)

詳細な内訳は、さまざまなモダリティ、データセットの設計方法、そしてベンチマークの実施方法について、さらに深掘りしています。すべてのコードとデータセットはオープンソースです

私たちの目標は、決定論的タスクにおいて最良の汎用モデルになることです。そして、決定論性の重要な要素の1つが、制御可能で一貫した出力構造であることです。構造化出力をより良くするための最初のステップは、それを測定し、私たち自身と業界を最高水準と比べていくことです。

投稿者 /u/404llm
[リンク] [コメント]