AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

構造化アウトプット・ベンチマーク（SOB）—JSONのパースだけでなく値の正確性も検証

Reddit r/MachineLearning / 2026/4/29

💬 オピニオンSignals & Early TrendsModels & Research

原文を読む →

共有:

要点

構造化アウトプット・ベンチマーク（SOB）は、従来のベンチマークがJSONの妥当性（スキーマ/型）に偏りがちであり、よりよく起きる失敗である「JSON値の誤り（幻覚含む）」を見落としている点を指摘している。
SOBは7つの指標で評価を行い、Value Accuracy（検証済みの正解に対するリーフ値の完全一致）やFaithfulness（文脈に根ざしているか／幻覚か）に加え、JSON Pass Rate・Type Safety・Path Recall・Structure Coverageといった構造面の指標も測定する。
結果として、JSONスキーマのパス率（しばしば90%+）と値の正確性の間に大きなギャップがあることが示され、モデルは有効なJSONを生成しても値の抽出を誤る可能性がある。
全体ランキングではオープンソース勢の健闘が報告されており、GLM 4.7がGPT 5.4のすぐ下で2位に入ったとされるほか、テキスト/画像/音声のモダリティ別にも性能を分析している。
コードとデータセットはオープンソースとして提供され、決定論的で制御可能な構造化出力の改善を、ベンチマークを通じて業界全体により高い基準を求めることを目的としている。

現在の構造化出力のベンチマークは、jsonスキーマと型に対する合格率のみを検証していますが、より一般的に問題となりがちなのは、不正確なjson値です。

たとえば、請求書から値を抽出するときに幻覚された `total_price` の数値や、不正確な日付マッピングによって配列の順序が誤ってしまうといったケースです。

構造化出力ベンチマークは、jsonスキーマの代わりに7つの主要な指標を測定します。

値の正確性（主）: 検証済みの正解データに対する、完全一致のリーフ値のマッチ
JSON合格率、型の安全性、パス再現率、構造カバレッジ（構造）
忠実性: 値は文脈に基づいているのか、それとも幻覚なのか？
完全な応答: すべてのリーフ値が正しい
モダリティ: テキスト、画像、音声

全体結果

全体ベンチマーク結果

オープンソースはかなり好調で、GLM 4.7が2位、GPT 5.4の直下です。

JSON合格率 vs 値の正確性のギャップ

JSON合格率 vs 値の正確性のギャップ

ここで興味深いのは、ほとんどのモデルがJSONスキーマ合格で90%超を達成している一方で、どのモデルも値の正確性では大きく落ちてしまう点です。

モダリティ別最優秀

モダリティ別最優秀

詳細な内訳のブログ: https://interfaze.ai/blog/introducing-structured-output-benchmark
フルリーダーボード: https://interfaze.ai/leaderboards/structured-output-benchmark
論文: https://interfaze.ai/sob_paper.pdf （arXivは未掲載）

詳細な内訳は、さまざまなモダリティ、データセットの設計方法、そしてベンチマークの実施方法について、さらに深掘りしています。すべてのコードとデータセットはオープンソースです

私たちの目標は、決定論的タスクにおいて最良の汎用モデルになることです。そして、決定論性の重要な要素の1つが、制御可能で一貫した出力構造であることです。構造化出力をより良くするための最初のステップは、それを測定し、私たち自身と業界を最高水準と比べていくことです。

投稿者 /u/404llm
[リンク] [コメント]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/29Dailyインサイトを見る →

関連記事

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

日経XTECH

BYDが最安EVにLiDAR、ファーウェイがレベル3攻勢北京ショー7選

BYDが最安EVにLiDAR、ファーウェイがレベル3攻勢北京ショー7選

日経XTECH

光電融合、新プレーヤー・新技術が続々データセンター省電力化

光電融合、新プレーヤー・新技術が続々データセンター省電力化

日経XTECH

富士通、独自CPUで狙うソブリンAI ラピダス味方にGPUと共存

富士通、独自CPUで狙うソブリンAI ラピダス味方にGPUと共存

日経XTECH

ユーザーが誤情報や有害発言を見つけたとき、LLMはどう「修正」されるのか？

Reddit r/artificial

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告