AI Navigate

LLMの構造化出力とデータ抽出におけるリアルタイム信頼性スコアリング

arXiv cs.CL / 2026/3/20

📰 ニュースTools & Practical UsageModels & Research

要点

  • CONSTRUCTは、LLMの構造化出力の信頼性をリアルタイムに評価するスコアリング手法を導入し、誤りの可能性が高い出力を特定して人間のレビューを導く。
  • この手法は、構造化出力内の個々のフィールド単位で信頼性を評価するため、レビュアーは間違っている部分に焦点を絞ることができる。
  • この手法は、logprobs(対数確率)を持たないブラックボックスAPIを含む任意のLLMと組み合わせて機能し、ラベル付きトレーニングデータやカスタムモデルのデプロイを必要としない。
  • 評価は4つのデータセットを用い、他のスコアリング手法より高い適合率と再現率を示し、Gemini 3やGPT-5といったモデルでの評価を含む。
  • 本研究は、信頼性のある正解値を備えたLLMの構造化出力に関する最初期の公開ベンチマークの1つを提供し、ネストされたJSONスキーマを含む複雑な出力をサポートしている。

要約: 現在の LLM からの構造化出力は散発的なエラーを示し、企業向け AI の取り組みがその莫大な潜在能力を実現するのを妨げています。私たちは CONSTRUCT を提示します。これは LLM の構造化出力の信頼性をリアルタイムで評価する手法であり、スコアが低い出力ほどエラーを含む可能性が高くなります。これにより、限られた人間によるレビューの帯域を最も集中させるべき場所を明らかにします。CONSTRUCT はさらに LLM 構造化出力内の各フィールドの信頼性も評価し、レビュアーが出力のどの部分が誤っているかを迅速に特定できるようにします。本手法は、ログ確率を持たないブラックボックス LLM API を含む、推論モデルや Anthropic モデルを含む任意の LLM に適用可能であり、ラベル付き訓練データやカスタムモデルのデプロイを必要とせず、多様な型を持つ多数のフィールドを含む複雑な構造化出力(ネストした JSON スキーマを含む)にも対応します。さらに、間違いだらけではない信頼できる正解値を含む初期の公開 LLM 構造化出力ベンチマークの1つを紹介します。この4データセットからなるベンチマークにおいて、CONSTRUCT は Gemini 3 や GPT-5 を含むさまざまな LLM のエラーを、他のスコアリング手法よりもはるかに高い精度・再現率で検出します。