概要: 大規模言語モデルは、初期段階で意味にコミットするという体系的な傾向を示します。曖昧な入力が与えられた場合、それらは十分な文脈がまだ利用可能でないうちに、複数の妥当な解釈を単一の応答へと収束させます。この時期尚早な収束は、対話が進展するにつれて重要になり得る情報を捨て去ってしまいます。本稿では、テキストから状態へのマッピング(φ: T -> S)のための形式的枠組みを提示します。この枠組みは、自然言語を「収束しない(collapseしない)」状態空間へと変換し、複数の解釈が同時に共存できるようにします。マッピングは3つの段階に分解されます: 対立(コンフリクト)の検出、解釈の抽出、状態の構築です。私たちは、φを、明示的な対立マーカーに対するルールベースのセグメンテーションと、暗黙の曖昧性のLLMベース列挙とを組み合わせるハイブリッドな抽出パイプラインとして実装します。68の曖昧文からなるテストセットでは、その結果得られた状態が、解釈の多重性を保持します: ハイブリッド抽出では、曖昧性カテゴリ全体で平均状態エントロピー H = 1.087 bits が得られます。一方、単一の解釈へコミットする収束ベースラインでは H = 0 です。また、日本語のマーカーに対してルールベースの対立検出器を実装し、言語をまたいだ移植性を示します。この枠組みは、テキストからNRR(Non-Resolution Reasoning)状態空間へのアルゴリズム的な橋渡しを提供することで、Non-Resolution Reasoning(NRR)を拡張し、LLM推論におけるアーキテクチャ的な収束の先送りを可能にします。状態から状態への変換に関する設計原則は付録で詳述されており、580件のテストケースで経験的な検証が行われています。原則を満たす演算子では収束が0%であるのに対し、原則に違反する演算子では最大17.8%です。
NRR-Phi:曖昧性を保持するためのLLM推論におけるテキスト→ステート写像
arXiv cs.CL / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 大規模言語モデルは曖昧な入力に対して早期に意味へ収束(単一解釈へ“collapse”)し、対話が進む際に重要となり得る情報を失うという課題を扱っている。
- 著者らは自然言語テキストを非収束な状態空間へ写像するためのテキスト→ステートの形式的枠組み(φ: T→S)を提案し、衝突検出・解釈抽出・状態構築の3段階に分解している。
- 実装として、明示的な衝突マーカーにはルールベースの分割、暗黙の曖昧性にはLLMによる列挙を組み合わせたハイブリッド抽出パイプラインを導入し、68文のテストで平均状態エントロピーH=1.087 bits(collapseベースラインはH=0)を示した。
- 日本語の衝突マーカーに対してもルールベースの検出器を適用し、多言語への持ち運び可能性を示している。