正しいだけでは使えない:小規模言語モデルにおける構造化出力の信頼性を高める

arXiv cs.CL / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、小規模(7–9B)言語モデルにおける「構造化出力の信頼性ギャップ」を、数学的に正しいだけでなくJSON形式に厳密に準拠した出力が要求される状況で検証しています。
  • GSM8KとMATHの評価では、ナイーブなプロンプトやリファレンス提示でも体系的なフォーマット失敗が起き、タスク精度が高くてもJSONの妥当性が0%になるケースが報告されています。
  • 構文的なJSON妥当性を強制するコンストレインド・デコーディングは可能ですが、遅延が約3.6×–8.2×増えるうえ、タスク性能を大きく損なう設定もあります。
  • 著者らはAloLabを提案しています。これは、メタエージェント(Claude Sonnet 4.5)を用いた反復的なシステムプロンプト最適化で、ターゲットモデルへのブラックボックスAPIアクセスのみで微調整なしに、GSM8Kで84–87%、MATHで34–40%までJSON出力精度を改善します。
  • このフォーマット信頼性の問題はGPT-4oにも見られ、AloLabは有効なJSON出力精度を約95.2%に高める一方、リファレンス・プロンプトはmarkdown-fenceのラッピングが原因で0%になると述べています。

概要: 導入された言語モデルは、出力が正確であるだけでなく、フォーマット要件にも準拠している必要があります。私たちは、2つの数学ベンチマーク――GSM8KとMATH――を制御されたテストベッドとして用い、この「構造化出力の信頼性ギャップ」を研究します。ここでは、真値が曖昧でなく、出力契約が厳格です(必須フィールドを持つJSON)。5つのプロンプト戦略のもとで3つの7〜9Bモデルを評価し、数学的な正しさと有効なJSON構造の同時成立である出力精度を主要指標として報告します。体系的なフォーマット失敗が明らかになります。NAIVEプロンプト(システムプロンプトなし)では、GSM8Kにおけるタスク精度が最大85%に達する一方で、すべてのモデルとデータセットにわたって出力精度は0%です。REFERENCEプロンプト(最小限の手書きJSON形式のプロンプト)は、テストした4モデルのうち2モデルでは出力精度0%という結果で、改善はほとんどありません。構文的な妥当性を強制する制約付きデコードは有効ですが、3.6〜8.2倍のレイテンシオーバーヘッドを招き、いくつかの設定ではタスク性能を大幅に低下させます。この制約を克服するために、私たちはAloLab――反復型のシステムプロンプト最適化器(メタエージェント: Claude Sonnet 4.5)――を開発しました。これは、対象モデルへのブラックボックスAPIアクセスのみを必要とします。AloLabは、モデルごとに5つの独立した実行において、GSM8Kで84〜87%の出力精度、MATHで34〜40%の出力精度を達成します。また、最良の固定プロンプトに対して29/30ペアのMcNemar比較がp < 0.05で有意であり、モデルの微調整なしで、NAIVEに近い推論レイテンシを実現します。同様のフォーマット失敗は、プロプライエタリなクローズドソースモデルであるGPT-4o(OpenAI, 2024)にも広がります。REFERENCEは、マークダウンのフェンスによる体系的なラッピングのために出力精度0%となるのに対し、AloLabは95.2% [94.8, 95.6] に到達します。Sonnet 4.5のメタエージェントをClaude 3 Haikuに置き換えるアブレーションでは、平均出力精度が61.0%に低下し、実行間の標準偏差が<1ppから21.8ppへと増加することが確認され、最適化品質の主要な駆動要因がメタエージェント能力であることを裏付けます。