視覚なしで視点回転を理解する方法：LLMとVLMの解釈可能性研究

arXiv cs.AI / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、視覚情報なしのテキスト入力のみで、LLMとVLMが視点回転理解（VRU）を行えるかを調べています。
著者らのVRUデータセットではLLM/VLMはいずれも低い性能にとどまる一方、人間は100%の精度を達成でき、空間知能に求められる能力とのギャップが大きいことが示されました。
階層ごとのプロービングとヘッド単位の因果介入により、モデルは視点情報を隠れ状態に符号化できるものの、視点位置とそれに対応する観測の結び付けが難しく、後段層で幻覚（ハルシネーション）が生じやすいことが示唆されます。
因果介入で特定した重要な注意（attention）ヘッドのみを選択的に微調整するとVRU性能が向上しつつ、汎用能力の壊滅的忘却（catastrophic forgetting）を回避できることが報告され、データセットとコードの公開も予定されています。

概要: 過去1年間で、空間知能はますます注目を集めてきました。多くの先行研究は、視覚入力から得られる視空間情報にモデルがアクセスできるという観点、すなわち視覚・空間知能の観点から空間知能を研究しています。しかし、視覚情報がない場合に、言語的知能だけでモデルに空間知能を付与できるのか、またテキストのみの入力でモデルが関連タスクをどのように遂行するのか、といった点は依然として未検討です。そこで本論文では、言語的観点から捉えた空間知能における基礎的かつ重要な能力、すなわち視点回転理解（VRU）に焦点を当てます。具体的には、LLMおよびVLMに対し、複数ステップにわたる「視点回転」と「観測」のテキストによる記述が与えられた状況で、最終的な視点を推論し、対応する観測を環境上で予測することを求めます。その結果、提案するデータセットにおいて、LLMもVLMも性能が低い一方で、人間は容易に100%の精度を達成できることが分かり、現在のモデル能力と空間知能の要求との間に大きなギャップがあることを示しています。基盤となるメカニズムを明らかにするために、層ごとのプロービング分析と、ヘッドごとの因果的介入を行います。得られた知見として、モデルは隠れ状態に視点情報をエンコードしているものの、視点位置と対応する観測を結び付けることに苦戦しているように見え、その結果として終盤の層で幻覚（hallucination）が生じていることが明らかになりました。最後に、因果的介入によって同定された重要な注意ヘッドを選択的に微調整し、VRU性能を向上させます。実験結果は、このような選択的微調整が、汎用的能力の致命的な忘却（catastrophic forgetting）を回避しつつVRU性能を改善できることを示しています。本データセットおよびコードは https://github.com/Young-Zhen/VRU_Interpret で公開します。