現在の構造化出力のベンチマークは、jsonスキーマと型に対する合格率のみを検証していますが、より一般的に問題となりがちなのは、不正確なjson値です。
たとえば、請求書から値を抽出するときに幻覚された `total_price` の数値や、不正確な日付マッピングによって配列の順序が誤ってしまうといったケースです。
構造化出力ベンチマークは、jsonスキーマの代わりに7つの主要な指標を測定します。
- 値の正確性(主): 検証済みの正解データに対する、完全一致のリーフ値のマッチ
- JSON合格率、型の安全性、パス再現率、構造カバレッジ(構造)
- 忠実性: 値は文脈に基づいているのか、それとも幻覚なのか?
- 完全な応答: すべてのリーフ値が正しい
- モダリティ: テキスト、画像、音声
全体結果
オープンソースはかなり好調で、GLM 4.7が2位、GPT 5.4の直下です。
JSON合格率 vs 値の正確性のギャップ
ここで興味深いのは、ほとんどのモデルがJSONスキーマ合格で90%超を達成している一方で、どのモデルも値の正確性では大きく落ちてしまう点です。
モダリティ別 最優秀
詳細な内訳のブログ: https://interfaze.ai/blog/introducing-structured-output-benchmark
フルリーダーボード: https://interfaze.ai/leaderboards/structured-output-benchmark
論文: https://interfaze.ai/sob_paper.pdf (arXivは未掲載)
詳細な内訳は、さまざまなモダリティ、データセットの設計方法、そしてベンチマークの実施方法について、さらに深掘りしています。すべてのコードとデータセットはオープンソースです
私たちの目標は、決定論的タスクにおいて最良の汎用モデルになることです。そして、決定論性の重要な要素の1つが、制御可能で一貫した出力構造であることです。構造化出力をより良くするための最初のステップは、それを測定し、私たち自身と業界を最高水準と比べていくことです。
[リンク] [コメント]



