概要: 大規模言語モデル(LLM)における内在的な自己修正は、自由形式の推論課題においてしばしば「幻覚の雪だるま化(hallucination snowballing)」によって失敗します。これは、モデルが自由形式のテキスト反省(free-text reflection)の中で、初期の誤りを再帰的に正当化してしまう現象です。構造化されたフィードバックはこの問題を軽減できますが、既存のアプローチは多くの場合、外部で学習された批評家や記号的ツールに依存しており、エージェントの自律性が低下します。本研究では、追加学習なしで、Outlines ベースの制約付きデコーディングによって純粋に構造化された内省を強制すると、誤りの伝播をどのように阻害できるのかを調査します。80億パラメータのモデル(Qwen3-8B)を評価した結果、構造制約を単に課しても、自己修正の性能は改善されないことを示します。代わりに、新たな失敗モードである「構造の雪だるま化(structure snowballing)」が引き起こされます。厳密な書式ルールを満たすために必要な認知的負荷が、モデルを「書式の罠(formatting traps)」へ追い込むことを見出しました。この観察は、エージェントがほぼ完璧な表層的な構文整合(syntactic alignment)を達成しながらも、より深い意味上の誤りを検出または解決できない理由を説明するのに役立ちます。本結果は、制約付きデコーディングに固有の「アラインメント・コスト(alignment tax)」を明らかにし、自律的なワークフローにおける構造の粒度と内部モデル能力の間の緊張関係を示しています。コードおよび生ログは GitHub リポジトリで利用可能です: https://github.com/hongxuzhou/agentic_llm_structured_self_critique。
幻覚から構造へ:LLMリフレクションにおける制約付きデコーディングのアライメント税(Alignment Tax)—Snowballing
arXiv cs.CL / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、オープンエンドなリフレクション中にLLMの「自己修正(self-correction)」がしばしば失敗する理由を調査し、初期の誤りが再帰的に正当化されていく「幻覚(hallucination)のスノーボーリング(snowballing)」に起因するとしている。
- Outlinesベースの制約付きデコーディングによって構造化されたリフレクションを強制することで、追加学習なしに誤りの伝播を抑えられるかを検証し、8BパラメータのQwen3-8Bモデルを用いて実験する。
- 結果は、制約付きデコーディングが自己修正の改善につながらないことを示す。代わりに新たな失敗モードである「構造(structure)のスノーボーリング」が生じ、厳格なフォーマット要件がモデルを閉じ込めてしまう。
- 著者らは、これにより「アライメント税(alignment tax)」が発生すると主張している。つまり、より高い構造粒度を強制することは認知負荷を増大させ、深い意味論的な誤りを見抜く能力を低下させる一方で、表面的な構文整合だけを可能にしてしまう。
- 研究では、さらなる調査や再現のために、関連するGitHubリポジトリにコードと生ログを公開している。



