連鎖を断ち切る: 中間構造に対するLLMの忠実性の因果分析

arXiv cs.AI / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、スキーマ指向のLLM推論における中間構造が最終出力を因果的に決定するかどうかを判定するための因果評価プロトコルを提示する。
8つのモデルと3つのベンチマークにまたがる実験で、モデルは中間構造と自己整合的である一方、介入後の予測を更新できないことが多く、最大60％のケースで見かけ上の忠実性の脆弱性が露呈する。
最終決定が外部ツールから導かれる場合、この脆弱性は大きく消失する。すなわち、中間構造は結果を影響することはあるが、信頼性をもって媒介することはできないことを示唆している。
元の入力よりも中間構造を強調するプロンプトは、その差を実質的に縮小しない。中間構造は安定した因果媒介者というよりも、影響力のある文脈として機能していることを示している。

要約: スキーマ誘導推論パイプラインは、LLMs（大規模言語モデル）に最終決定を下す前に明示的な中間構造――採点基準、チェックリスト、検証クエリ――を作成するよう求めます。しかし、これらの構造は出力を因果的に決定するのか、それとも単に付随しているだけなのか？この因果評価プロトコルを導入し、これを直接測定可能にします：中間構造を決定論的な関数が決定へ写像するタスクを選択することにより、制御された編集の一つ一つが一意の正しい出力を意味します。8つのモデルと3つのベンチマークにわたって、モデルは自分自身の中間構造と自己整合的に見えるものの、中間構造が介入された後に予測を更新できないケースが最大60％に達し、表面的な忠実さは中間構造が変わると脆弱であることを明らかにします。構造から最終決定の導出を外部ツールに委任すると、この脆さはほぼ消失します。しかし、元の入力より中間構造を優先させるよう求めるプロンプトは、ギャップを実質的に狭めません。総じて、スキーマ誘導パイプラインにおける中間構造は、安定した因果的媒介者というよりも、影響力のある文脈として機能します。

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

連鎖を断ち切る: 中間構造に対するLLMの忠実性の因果分析

要点

関連記事

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer