推論なしに、推論モデルに基づく表現が創発的に社会的伝播する

arXiv cs.AI / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、他者の「心を読む(mentalizing)」ことや他者の信念を推論することなく、エージェント(人間に相当)が他者から豊かで転用可能な環境知識を獲得できる方法を調査する。
  • 再構成可能な報酬環境における強化学習シミュレーションを用い、直接の経験からの学習と、専門家の行動を観察しての学習を比較する。
  • モデルベースの学習者は、観察された行動に基づいて、ヒューリスティックに行動を選択する、または価値表現を強めることで振る舞いを更新し、隠れた心的状態を推論することを明示的に行わない。
  • 結果として、社会的な曝露が学習者の経験を偏らせ、その内部表現が専門家のものへと収束することが示される。特にモデルベースの学習者は最も大きく改善し(より速い学習とより専門家らしい表現)、その傾向が強い。
  • 著者らは、これは、従来は非社会的な学習プロセスとして扱われがちなものを活用しつつ、最小限で心を読む必要のない社会的手がかりによって文化的伝達を可能にする仕組みを提供すると主張する。

要旨: 人は、限られた認知能力にもかかわらず、他者から環境に関する豊かで柔軟な知識をどのようにして獲得するのだろうか? 人間はしばしば、他者の信念を推論するような、計算コストの高い思考(メンタライジング)に頼ると考えられている。これに対して、文化進化は、行動の伝達が単純な社会的手がかりによって支えられ得ることを強調する。強化学習シミュレーションを用いて、最小限の社会学習がどのように間接的に高次の表象を伝達しうるかを示す。再構成可能な環境で報酬を探索する素朴な(ナイーブな)エージェントをシミュレートし、単独で学習する場合、または専門家を観察して学習する場合のいずれかを行う――重要なのは、心的状態を推論することなく、という点である。その代わりに、学習者は観察された行動に基づいて、経験的に行動を選択するか、あるいは価値の表象を強化する。これらの結果は、このような手がかりが学習者の経験を偏らせ、その表象が専門家のものへと収束することを示している。モデルに基づく学習者は、社会的な接触から最も大きな恩恵を受け、より速い学習と、より専門家らしい表象を示す。これらの知見は、文化的伝達が、非メンタライジング(心的状態を推論しない)な単純な過程によって生じ得ること、そしてそれが非社会的(アソーシャル)学習の仕組みを活用することを示している。