LLM StructCore：スキーマ誘導推論による要約圧縮と決定論的コンパイル

arXiv cs.CL / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

この論文では、厳密な134項目の出力スキーマに基づいてDyspneaの臨床ケースレポートフォームを記入するための、契約（コントラクト）駆動の二段階システム「LLM StructCore」を提案しています。
134項目を一度に予測する代わりに、Stage 1ではスキーマ誘導推論（SGR）スタイルのJSON要約を生成し、含めるドメインキーはちょうど9つに制限します。
Stage 2は「0-LLM」の決定論的“コンパイラ”であり、Stage 1の出力を解析して項目名を正規化し、公式の制御語彙へ正規化し、根拠に基づく誤検知フィルタを適用したうえで、予測を134項目形式へ展開します。
CL4Health 2026向けの実験では、dev80のマクロF1が最大でEN 0.6543・IT 0.6905、隠しテスト200のEnglish（Codabench）は0.63と報告され、英語とイタリア語で言語非依存の性能が示されています。
既知項目が極端に少ない（スパース）こと、さらに空欄や根拠のない予測に対してスコアが罰されることを背景に、スキーマ制約と決定論的後処理によって精度（誤検知低減）を重視する設計になっています。

要旨: クリニカルノートから症例報告フォーム（CRF）を自動的に記入することは、ノイズの多い言語、厳格な出力契約（アウトプット・コントラクト）、および偽陽性の高いコストによって困難です。私たちは、スキーマに導かれた推論（Schema-Guided Reasoning: SGR）に基づく契約駆動の二段階設計を用いて、息切れ（Dyspnea）CRF 記入（134項目）のための CL4Health 2026 提出を報告します。主要なタスクの性質は極端な疎性です。大多数のフィールドは不明であり、公式の採点は空の値と根拠のない予測の両方を罰します。私たちは、単一ステップで「LLMが134フィールドを予測する」アプローチから、（i）第1段階がちょうど9つのドメイン・キーを持つ、安定したSGRスタイルのJSON要約を生成し、（ii）第2段階が完全に決定論的でLLMを用いない（0-LLM）コンパイラとして、第1段階の要約を解析し、項目名を正準化し、予測を公式の制御された用語集（controlled vocabulary）に正規化し、証拠でゲートされた偽陽性フィルタを適用し、出力を要求される134項目形式に展開する、という分解へと移行します。dev80 分割で最良の教師（teacher）構成は、マクロF1が0.6543（EN）および0.6905（IT）を達成しました。隠れテスト200では、提出した英語版は Codabench で0.63のスコアでした。パイプラインは言語非依存です。イタリア語の結果は、言語固有のエンジニアリングを一切行わずに、英語と同等かそれ以上です。