StructEval:構造化出力を生成するLLMの能力をベンチマークする

arXiv cs.CL / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • StructEvalは、LLMが構造化出力をどれだけうまく生成できるかを評価するための新しいベンチマークとして提案されており、非レンダリング形式(例:JSON/YAML/CSV)と、レンダリング可能な形式(例:HTML/React/SVG)の両方を対象とする。
  • このベンチマークでは2つの評価パラダイム—自然言語プロンプトからの生成と、構造化形式間の変換—を用い、18形式・44タスクタイプにまたがる。
  • 本研究では、先行ベンチマークよりも「構造的忠実度(structural fidelity)」を体系的に検証するための、新しい指標(フォーマット遵守と構造的正確さ)を導入する。
  • 実験結果では、モデル間に大きな能力差が見られ、最高水準の性能(o1-miniの平均75.58)でも改善の余地があり、オープンソースモデルは平均で約10ポイント遅れている。
  • 生成タスクは変換タスクより難しく、正しい視覚的/視覚化可能なコンテンツを生成することは、テキストのみの構造化出力を生成するより難しいことがわかる。

概要: 大規模言語モデル(LLM)がソフトウェア開発のワークフローに不可欠になるにつれて、構造化された出力を生成する能力が極めて重要になっています。私たちは、LLMが非レンダリング(JSON、YAML、CSV)およびレンダリング可能(HTML、React、SVG)の両方の構造化フォーマットを生成する能力を評価するための包括的ベンチマークであるStructEvalを提案します。従来のベンチマークとは異なり、StructEvalは2つのパラダイムを通じて、多様なフォーマットにわたる構造的忠実性を体系的に評価します。1) 生成タスク:自然言語プロンプトから構造化出力を生成すること、 extbf{2)} 変換タスク:構造化フォーマット間の相互変換を行うこと。私たちのベンチマークは18フォーマットと44種類のタスクを対象とし、フォーマット順守と構造的正しさのための新しい指標を備えています。結果は大きな性能ギャップを示しており、最先端モデルのようなo1-miniでさえ平均スコアは75.58にとどまり、オープンソースの代替はさらに約10ポイント遅れています。生成タスクは変換タスクよりも難しく、正しい視覚コンテンツを生成することはテキストのみの構造を生成するよりも困難であることが分かりました。