LLMの構造化出力とデータ抽出におけるリアルタイム信頼性スコアリング

arXiv cs.CL / 2026/3/20

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

CONSTRUCTは、LLMの構造化出力の信頼性をリアルタイムに評価するスコアリング手法を導入し、誤りの可能性が高い出力を特定して人間のレビューを導く。
この手法は、構造化出力内の個々のフィールド単位で信頼性を評価するため、レビュアーは間違っている部分に焦点を絞ることができる。
この手法は、logprobs（対数確率）を持たないブラックボックスAPIを含む任意のLLMと組み合わせて機能し、ラベル付きトレーニングデータやカスタムモデルのデプロイを必要としない。
評価は4つのデータセットを用い、他のスコアリング手法より高い適合率と再現率を示し、Gemini 3やGPT-5といったモデルでの評価を含む。
本研究は、信頼性のある正解値を備えたLLMの構造化出力に関する最初期の公開ベンチマークの1つを提供し、ネストされたJSONスキーマを含む複雑な出力をサポートしている。

要約: 現在の LLM からの構造化出力は散発的なエラーを示し、企業向け AI の取り組みがその莫大な潜在能力を実現するのを妨げています。私たちは CONSTRUCT を提示します。これは LLM の構造化出力の信頼性をリアルタイムで評価する手法であり、スコアが低い出力ほどエラーを含む可能性が高くなります。これにより、限られた人間によるレビューの帯域を最も集中させるべき場所を明らかにします。CONSTRUCT はさらに LLM 構造化出力内の各フィールドの信頼性も評価し、レビュアーが出力のどの部分が誤っているかを迅速に特定できるようにします。本手法は、ログ確率を持たないブラックボックス LLM API を含む、推論モデルや Anthropic モデルを含む任意の LLM に適用可能であり、ラベル付き訓練データやカスタムモデルのデプロイを必要とせず、多様な型を持つ多数のフィールドを含む複雑な構造化出力（ネストした JSON スキーマを含む）にも対応します。さらに、間違いだらけではない信頼できる正解値を含む初期の公開 LLM 構造化出力ベンチマークの1つを紹介します。この4データセットからなるベンチマークにおいて、CONSTRUCT は Gemini 3 や GPT-5 を含むさまざまな LLM のエラーを、他のスコアリング手法よりもはるかに高い精度・再現率で検出します。

Translator

Azure OpenAI Service ドキュメント

200人のChatGPTユーザーに聞いた最大の不満。トップ5はすべてChatGPT Toolboxが解決する問題だった。

Reddit r/artificial

すべてのPRをセキュリティバグでレビューするAIを作った — その方法（2026）

Dev.to

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

LLMの構造化出力とデータ抽出におけるリアルタイム信頼性スコアリング

要点

関連記事

Translator

200人のChatGPTユーザーに聞いた最大の不満。トップ5はすべてChatGPT Toolboxが解決する問題だった。

すべてのPRをセキュリティバグでレビューするAIを作った — その方法（2026）

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer