人間の認知からニューラル活性へ：LLMにおける空間推論の計算プリミティブを探る

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの空間推論ベンチマークの性能が、構造化された内部の空間表現に由来するのか、それとも言語に基づくヒューリスティックによるものなのかを、メカニスティック解析ツールを用いて検証する。
空間推論を3つの計算プリミティブ――関係の合成、表象の変換、状態を持つ空間の更新――に分解し、それぞれのプリミティブを狙った制御されたタスク群を評価する。
著者らは、多言語の単一パス推論（英語・中国語・アラビア語）に加え、線形プロービング、疎オートエンコーダによる特徴分析、因果的介入を用いて、空間に関連する情報が中間層に現れ、出力に因果的に影響し得ることを見出す。
ただし、内部の空間表現は一過性で、タスク群の間で断片的に存在し、最終的な予測へはわずかにしか統合されていないと説明されており、頑健性は限定的であることが示唆される。
異言語間の実験では、「メカニスティック・デジェネレシー（機構的退化）」が観察される。これは、同様の行動性能が異なる内部経路によっても実現され得るというもので、依存の度合いが文脈や言語によって変わることを示す。