Structured Output Benchmark:マルチソースで構造化出力品質を評価するためのベンチマーク

arXiv cs.CL / 2026/4/29

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文では、自然言語の質問に対してJSONなどの構造化出力をどれだけ正確に生成できるかを、テキスト・画像・音声会話の複数ソースで評価するためのベンチマークSOB(Structured Output Benchmark)を提案します。
  • SOBはモダリティ間で入力をテキスト正規化表現に揃えることで、構造化出力の性能を視覚・音声の生の処理品質から切り離し、公平な比較を可能にしています。
  • ベンチマークは、マルチホップQAから作成した5,000件のテキスト、OCR処理したPDF由来で複雑な文書タイプを含む209件の画像、AMIコーパスからの115件の音声を含み、いずれもソース文脈に裏付けられた答えをJSONスキーマに従って出力することを要求します。
  • 21のフロンティアおよびオープンウェイトモデルを対象にした結果、スキーマ適合はほぼ完璧に近い一方で、値の正確性(完全一致のリーフ値)はテキスト83.0%、画像67.2%、音声23.7%にとどまり、特に文脈が長いほど抽出が難しくなることが示されます。
  • 著者らは、再現可能なソース非依存の構造化出力評価を可能にするため、データセット、評価パイプライン、関連コードを公開します。

概要: 大規模言語モデルは、非構造および半構造の情報源から構造化データを抽出する用途でますます広く導入されています。請求書の解析、医療記録の処理、PDF文書をデータベースのエントリへ変換することなどです。しかし、構造化出力生成のための既存のベンチマークは、スキーマへの適合性だけに焦点を当てるか、あるいは単一のソース領域内での価値の正しさを評価するかのいずれかでした。本研究では、SOB(The Structured Output Benchmark)を導入します。SOBは、3つのソース・モダリティ(ネイティブテキスト、画像、音声の対話)にまたがるマルチソースのベンチマークです。すべてのモデルは、ソース・モダリティにかかわらず、文脈のテキスト正規化表現を受け取ります。この意図的な設計により、構造化出力能力を、生の視覚処理や音声処理の品質から切り離し、ソースに依存しない公平な比較を可能にします。本ベンチマークは、25,091レコードの完全コーパスから導出したマルチホップQAに基づく5,000件のテキスト評価レコード、7種類の文書タイプにわたるOCR処理済みPDFからの209件の画像レコード(マルチカラムレイアウト、密な表、スキャンされた歴史文書、細かな活字、数学的組版を含む)、そしてAMIコーパスからの115件の音声レコードで構成されます。各レコードは、自然言語の質問と、モデルが従う必要があるJSONスキーマ、さらにソース文脈に基づいて検証された正解(グラウンドトゥルースの答え)を対応付けます。3つのソース領域と7つの指標にわたって、21の最先端かつオープンウェイトのモデルを評価します。結果は一貫した傾向を示します。モデルはスキーマ適合性をほぼ完全に達成しますが、厳密なリーフ値一致によって測定される最良の価値精度(Value Accuracy)は、テキストで83.0%、画像で67.2%、音声で23.7%にとどまり、文脈が長くなるほど抽出が大幅に難しくなることが分かります。データセット、評価パイプライン、および関連するすべてのコードを公開します。