正しいだけでは使えない：小規模言語モデルにおける構造化出力の信頼性を高める

arXiv cs.CL / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、小規模（7–9B）言語モデルにおける「構造化出力の信頼性ギャップ」を、数学的に正しいだけでなくJSON形式に厳密に準拠した出力が要求される状況で検証しています。
GSM8KとMATHの評価では、ナイーブなプロンプトやリファレンス提示でも体系的なフォーマット失敗が起き、タスク精度が高くてもJSONの妥当性が0%になるケースが報告されています。
構文的なJSON妥当性を強制するコンストレインド・デコーディングは可能ですが、遅延が約3.6×–8.2×増えるうえ、タスク性能を大きく損なう設定もあります。
著者らはAloLabを提案しています。これは、メタエージェント（Claude Sonnet 4.5）を用いた反復的なシステムプロンプト最適化で、ターゲットモデルへのブラックボックスAPIアクセスのみで微調整なしに、GSM8Kで84–87%、MATHで34–40%までJSON出力精度を改善します。
このフォーマット信頼性の問題はGPT-4oにも見られ、AloLabは有効なJSON出力精度を約95.2%に高める一方、リファレンス・プロンプトはmarkdown-fenceのラッピングが原因で0%になると述べています。

概要: 導入された言語モデルは、出力が正確であるだけでなく、フォーマット要件にも準拠している必要があります。私たちは、2つの数学ベンチマーク――GSM8KとMATH――を制御されたテストベッドとして用い、この「構造化出力の信頼性ギャップ」を研究します。ここでは、真値が曖昧でなく、出力契約が厳格です（必須フィールドを持つJSON）。5つのプロンプト戦略のもとで3つの7〜9Bモデルを評価し、数学的な正しさと有効なJSON構造の同時成立である出力精度を主要指標として報告します。体系的なフォーマット失敗が明らかになります。NAIVEプロンプト（システムプロンプトなし）では、GSM8Kにおけるタスク精度が最大85%に達する一方で、すべてのモデルとデータセットにわたって出力精度は0%です。REFERENCEプロンプト（最小限の手書きJSON形式のプロンプト）は、テストした4モデルのうち2モデルでは出力精度0%という結果で、改善はほとんどありません。構文的な妥当性を強制する制約付きデコードは有効ですが、3.6〜8.2倍のレイテンシオーバーヘッドを招き、いくつかの設定ではタスク性能を大幅に低下させます。この制約を克服するために、私たちはAloLab――反復型のシステムプロンプト最適化器（メタエージェント: Claude Sonnet 4.5）――を開発しました。これは、対象モデルへのブラックボックスAPIアクセスのみを必要とします。AloLabは、モデルごとに5つの独立した実行において、GSM8Kで84〜87%の出力精度、MATHで34〜40%の出力精度を達成します。また、最良の固定プロンプトに対して29/30ペアのMcNemar比較がp < 0.05で有意であり、モデルの微調整なしで、NAIVEに近い推論レイテンシを実現します。同様のフォーマット失敗は、プロプライエタリなクローズドソースモデルであるGPT-4o（OpenAI, 2024）にも広がります。REFERENCEは、マークダウンのフェンスによる体系的なラッピングのために出力精度0%となるのに対し、AloLabは95.2% [94.8, 95.6] に到達します。Sonnet 4.5のメタエージェントをClaude 3 Haikuに置き換えるアブレーションでは、平均出力精度が61.0%に低下し、実行間の標準偏差が<1ppから21.8ppへと増加することが確認され、最適化品質の主要な駆動要因がメタエージェント能力であることを裏付けます。