Bi-Predictability:LLMインタラクションの完全性を監視するためのリアルタイム信号

arXiv cs.AI / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、原データのトークン出現頻度統計から算出される情報理論的指標である双方向の予測可能性(P)を提案し、多ターンのLLMインタラクションの完全性をリアルタイムに継続監視することを目的としています。
  • それに加え、Information Digital Twin(IDT)と呼ばれる軽量なアーキテクチャを導入し、二次推論、埋め込み、または繰り返しサンプリングに依存せずに、コンテキスト/応答/次のプロンプトのループ全体でPを推定します。
  • 4,500組の学生–教師の会話ターンにおいて、IDTは混入された妨害を感度100%で検出し、構造的な劣化を検知できることを示しました。
  • 著者らは、構造的な結合(Pで捉える)と意味の質(セマンティック・ジャッジで測定)はしばしば分離可能であり、出力が意味的には良好に見える一方で会話の構造が劣化する「サイレントな結合の非連動(silent uncoupling)」の状態が存在することを明らかにしています。
  • 構造監視を意味評価から切り離すことで、本アプローチは、大規模化にも対応しつつ計算効率の高いリアルタイムなAI保証と、クローズドループ制御(閉ループでの調整)を可能にすることを目指します。

要旨: 大規模言語モデル(LLM)は、信頼性が継続的で多ターンにわたるコヒーレンスを要求される、高リスクな自律的および対話型のワークフローでますます導入されています。しかし、現在の評価手法は、事後的なセマンティック・ジャッジに依存するか、単方向のトークン信頼度(例:パープレキシティ)を測るか、あるいは計算負荷の高い反復サンプリング(例:セマンティックエントロピー)を必要とします。これらの手法はモデルの出力分布のみに着目するため、基盤となる相互作用がリアルタイムで構造的に結合されたままであるかを監視できず、徐々に気づかれない劣化が起きるとシステムは脆弱になります。ここでは、多ターンの相互作用の完全性を、基礎的な情報理論的尺度である双予測可能性(P)を用いて継続的に監視できることを示します。Pは、生のトークン頻度統計から直接計算されます。私たちは、情報デジタルツイン(IDT)を提案します。これは、文脈・応答・次のプロンプトのループにわたってPを推定する軽量なアーキテクチャであり、副次的な推論や埋め込みを用いずに推定します。学生モデルと3つの最前線(frontier)の教師モデルとの間で行われた4,500回の会話ターンにおいて、IDTは注入された妨害を感度100%で検出しました。重要な点として、構造的結合とセマンティック品質は経験的かつ実務的に切り離し可能であることを実証します。Pは85%の条件で構造的一貫性と整合しましたが、セマンティック・ジャッジのスコアとは44%にしか整合しませんでした。これは、LLMが会話文脈を劣化させているにもかかわらず高いスコアの出力を生成する「サイレントなアンカップリング(silent uncoupling)」の重要な領域を示しています。構造モニタリングをセマンティック評価から切り離すことで、IDTはリアルタイムのAI保証とクローズドループ規制のための、スケーラブルで計算効率の高い仕組みを提供します