一般化の前にグラウンディングを：因果転移におけるAIと人間の違い

arXiv cs.AI / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、LLMやVLMが、逐次的な因果探索によって獲得した抽象的な因果構造を人間のように別状況へ転移できるかを検証する。
OpenLockパラダイム（共通原因CC・共通知CE構造の発見）を用いることで、著者らはモデルが人間よりも文脈をまたぐ転移を遅延させる、あるいは転移しないことを示す。
モデルは効率向上が現れる前に「環境グラウンディング」（その環境に対する初期の対応付け）を必要とするのに対し、人間は最初の試行から構造に関する先行知識を使って転移する。
テキストのみの条件ではモデルの発見効率が人間に匹敵、または上回る一方で、画像情報を加えると概して性能が低下し、統合的なマルチモーダル因果推論よりも記号的／テキスト的処理への依存が示唆される。
さらにモデルには、人間には見られないCC/CEの体系的な非対称性が現れ、方向に中立な因果抽象ではなくヒューリスティックな偏りがあることが示される。

要旨: 抽象的な因果構造を抽出し、それを新たな状況に適用することは、人間の知能の特徴である。大規模言語モデル（LLM）やビジョン言語モデル（VLM）は幅広い推論課題で強い性能を示している一方で、インタラクティブな因果学習――逐次的な探索によって潜在的な構造を誘導し、それを文脈間で転送する――に対する能力は、いまだ特性が明らかにされていない。人間の学習者は最小限の経験の後にそのような転送を達成するが、古典的な強化学習（RL）エージェントは致命的に失敗する。最先端の人工知能（AI）モデルが、抽象的な因果構造の転送において人間に似たメカニズムを備えているかどうかは、未解決の問いである。本研究では、共通原因（CC）および共通結果（CE）の構造を逐次的に発見することを要求するOpenLockパラダイムを用いて、ここに示すようにモデルは、本質的に転送が遅延する、または転送が欠落する挙動を示す。すなわち、効率の向上が現れる前に、最初に環境に特化した対応付け――本稿では環境グラウンディングと呼ぶ――が必要である。一方、人間は最初の解答試行の時点から、既存の構造に関する知識を活用する。テキストのみの条件では、モデルは人間の発見効率と同等か、それを上回った。これに対し、視覚情報――画像のみおよびテキストと画像の両条件において――は全体として性能を向上させるのではなく低下させ、統合されたマルチモーダル推論というよりは象徴処理への幅広い依存を明らかにする。さらにモデルは、人間には見られない体系的なCC/CEの非対称性も示し、方向に中立な因果の抽象化ではなく、ヒューリスティックなバイアスを示唆している。これらの発見は、大規模な統計的学習が、人間の類推的推論を支える脱文脈化された因果スキーマを生成しないことを明らかにし、現在のLLMおよびVLMにとって、グラウンディング依存の転送が根本的な制約であることを確立する。