要旨: 能動的学習(lifetime learning)は、進化の時間スケールにわたって行動の多様性を、単にそれを崩壊させるのではなく、拡張しうるのだろうか。先行理論は、可塑性が環境ノイズに対して生物をバッファリングすることで、分散を低減することを予測する。われわれはこれを競争的な領域で検証する:8つのNEAT進化ニューラルモジュール、ゲーム内のヘッブ則による可塑性、さらに想像(imagination)による欲望性ドメイン信号チェーンを備えたチェス・エージェントである。ヘッブ条件ごとに10~seedにわたり、分散のクロスオーバーが現れる:ヘッブONはOFFよりも、最初はクロスシード分散が低い状態で始まるが、その後世代~34でそれを上回る。このクロスオーバーの傾向は単調である(\r{ho} = 0.91, p < 10^{-6})。すなわち、進化の時間を通じて行動分散に対する可塑性の効果が反転し、当初は多様性を圧縮する(先行予測と整合する)一方で、進化した知覚の違いが想像を通じて増幅されることで、その後は多様性を拡張する -- これは突然変異だけでは維持できないフィードバックループである。
その結果は、構造化された行動的分岐として現れる:進化したエージェントは同一の局面で異なる手を選び(62\%の不一致)、異なるオープニングのレパートリー、駒の好み、そしてゲームの長さを発達させる。これらは異なるサンプリング方策ではない -- 解釈可能な信号チェーンの構成を伴う、再現可能な行動シグネチャである(ICC > 0.8)。相手のタイプに応じて3つのレジームが現れる:探索(ヘッブON、異質な相手)、ロットリー(ヘッブOFF、エリート化のロックイン)、透明(同一モデルの相手、脳の自己消去)。透明レジームは反証可能な予測を生み出す:自己対戦システムは、パーソナリティが必要とする異質性を排除することで、行動の多様性を系統的に抑制しうるかもしれない。
\textbf{キーワード: バルドウィン効果, ニューラル進化, NEAT, ヘッブ学習, チェス, 認知アーキテクチャ, パーソナリティの創発, 想像(imagination)
人格には闘争が必要:神経進化チェス・エージェントにおけるバールドウィン効果の3つのレジーム
arXiv cs.AI / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、従来のバールドウィン効果理論が示唆する「常に行動の多様性を減少させる」のではなく、寿命学習(ヘッブ則)によって進化の時間スケールにわたって行動の多様性が増えるかどうかを、神経進化チェス・エージェントで検証する。
- 複数のシードにわたる結果では、分散のクロスオーバーが観察される。すなわち、ヘッブ則ONエージェントはヘッブ則OFFよりも初期にはシード間の行動分散が低いが、世代34あたりでそれを上回り、可塑性の影響が進化の過程で逆転することを示す。
- 著者らは、同一の局面での手に関する高い不一致や、異なるオープニング・レパートリー、駒の嗜好、ゲーム長などに見られる、構造化され再現可能な行動分岐を見出す。これは、異なる(解釈可能な)信号チェーン構成により駆動される。
- 対戦相手のタイプに基づいて、3つの進化的「レジーム」が現れる。探索レジーム(ヘッブ則ON vs 異質な相手)、ロッタリー(くじ)レジーム(ヘッブ則OFFでエリート選抜によるロックイン)、透明レジーム(同一モデル同士の相手で「脳の自己消去」)である。
- 重要な含意は、自己対戦システムが、異質性を選択的に排除することで必要な行動の多様性(「人格」)そのものを抑制してしまう可能性があるという点であり、今後の実験に対して反証可能な予測を提示する。




