Structured Output Benchmark：マルチソースで構造化出力品質を評価するためのベンチマーク

arXiv cs.CL / 2026/4/29

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文では、自然言語の質問に対してJSONなどの構造化出力をどれだけ正確に生成できるかを、テキスト・画像・音声会話の複数ソースで評価するためのベンチマークSOB（Structured Output Benchmark）を提案します。
SOBはモダリティ間で入力をテキスト正規化表現に揃えることで、構造化出力の性能を視覚・音声の生の処理品質から切り離し、公平な比較を可能にしています。
ベンチマークは、マルチホップQAから作成した5,000件のテキスト、OCR処理したPDF由来で複雑な文書タイプを含む209件の画像、AMIコーパスからの115件の音声を含み、いずれもソース文脈に裏付けられた答えをJSONスキーマに従って出力することを要求します。
21のフロンティアおよびオープンウェイトモデルを対象にした結果、スキーマ適合はほぼ完璧に近い一方で、値の正確性（完全一致のリーフ値）はテキスト83.0%、画像67.2%、音声23.7%にとどまり、特に文脈が長いほど抽出が難しくなることが示されます。
著者らは、再現可能なソース非依存の構造化出力評価を可能にするため、データセット、評価パイプライン、関連コードを公開します。

概要: 大規模言語モデルは、非構造および半構造の情報源から構造化データを抽出する用途でますます広く導入されています。請求書の解析、医療記録の処理、PDF文書をデータベースのエントリへ変換することなどです。しかし、構造化出力生成のための既存のベンチマークは、スキーマへの適合性だけに焦点を当てるか、あるいは単一のソース領域内での価値の正しさを評価するかのいずれかでした。本研究では、SOB（The Structured Output Benchmark）を導入します。SOBは、3つのソース・モダリティ（ネイティブテキスト、画像、音声の対話）にまたがるマルチソースのベンチマークです。すべてのモデルは、ソース・モダリティにかかわらず、文脈のテキスト正規化表現を受け取ります。この意図的な設計により、構造化出力能力を、生の視覚処理や音声処理の品質から切り離し、ソースに依存しない公平な比較を可能にします。本ベンチマークは、25,091レコードの完全コーパスから導出したマルチホップQAに基づく5,000件のテキスト評価レコード、7種類の文書タイプにわたるOCR処理済みPDFからの209件の画像レコード（マルチカラムレイアウト、密な表、スキャンされた歴史文書、細かな活字、数学的組版を含む）、そしてAMIコーパスからの115件の音声レコードで構成されます。各レコードは、自然言語の質問と、モデルが従う必要があるJSONスキーマ、さらにソース文脈に基づいて検証された正解（グラウンドトゥルースの答え）を対応付けます。3つのソース領域と7つの指標にわたって、21の最先端かつオープンウェイトのモデルを評価します。結果は一貫した傾向を示します。モデルはスキーマ適合性をほぼ完全に達成しますが、厳密なリーフ値一致によって測定される最良の価値精度（Value Accuracy）は、テキストで83.0%、画像で67.2%、音声で23.7%にとどまり、文脈が長くなるほど抽出が大幅に難しくなることが分かります。データセット、評価パイプライン、および関連するすべてのコードを公開します。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

日経XTECH

LLMはコモディティになる

Reddit r/artificial

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

Dev.to

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Reddit r/LocalLLaMA

Structured Output Benchmark：マルチソースで構造化出力品質を評価するためのベンチマーク

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

LLMはコモディティになる

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

ローカルでQwen 3.6やGemma 4を動かすときの感覚

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

LLMはコモディティになる

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

ローカルでQwen 3.6やGemma 4を動かすときの感覚

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力