拡散言語モデルにおける時間的な言語的創発の測定

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 論文は、生成中の情報の検出可能性がいつ生まれるかを評価するために、拡散言語モデルの明示的なデノイズ軌跡を活用する研究を行っています。
  • マスクされたWikiText-103上でLLaDA-8B-Baseの32ステップ実行を複数回行い、トークンのコミットメント、POS/粗い意味カテゴリ/語彙同一性の線形回復可能性、信頼度・エントロピーの時間変化、軌跡途中での再マスキングに対する感度といった時間指標を導出しています。
  • ランダムシード間でも同様の順序が再現され、内容中心のカテゴリは機能語中心のカテゴリより早く安定し、プローブ設定の下では粗い言語ラベルは正確な語彙同一性よりも線形に回復しやすいことが示されています。
  • 不確実性の動態は最終的な正誤と関連し、最終的に誤るトークンは不確実性が高い一方、後半の信頼度は校正が改善しにくいことが見られます。
  • 実験設定においては「デノイズ時間」が有用な分析軸であり、粗いラベルは語彙同一性より早くかつ頑健に回復され、介入に最も敏感なのは軌跡の中間状態だと結論づけています。

要旨: 拡散言語モデルは明示的な除[[ノイズ]]イング軌道を公開しており、生成の過程で異なる種類の情報がいつ計測可能になるのかを問うことが可能になります。本研究では、マスクされたWikiText-103テキスト上でLLaDA-8B-Baseを3つの独立した32ステップの実行として行い、それぞれ1{,}000のプローブ学習シーケンスと200のホールドアウト評価シーケンスを用意しました。保存された軌道から、4つの時間的な計測値を導出します。すなわち、トークンのコミットメント、品詞(POS)、粗い意味カテゴリ、そしてトークン同一性の線形回復可能性、信頼度とエントロピーのダイナミクス、そして軌道の途中で再マスキングした場合の感度です。シード間で同じ順序が再現されます。すなわち、内容カテゴリは機能要素が多いカテゴリよりも早く安定し、我々のプローブ設定ではPOSおよび粗い意味ラベルは、厳密な語彙同一性よりも実質的に線形回復可能性が高いままであり、最終的に誤って解決されるトークンでは不確実性がより高く保たれます。一方で、後期の信頼度はキャリブレーションが低くなるものの、確信度の高さではなく不確実性の軌跡が正しさに連動していることが示され、摂動感度は軌道の中盤でピークに達します。直接/随伴の分解により、このピークは、影響を受けた位置それ自体にほぼ完全に局所化されることが分かります。したがって、このLLaDA+WikiTextの設定では、除[[ノイズ]]イング時間は有用な分析軸です。すなわち、我々の測定に基づけば、粗いラベルは語彙同一性よりも早期かつより頑健に回復され、不確実性は最終的な正しさに追随し、中盤の状態が最も介入(介在)に敏感です。