Abstract
私たちは言語モデルを進化するモデル生物として研究し、自回帰的な次トークン学習が、いつワールド追跡(world-tracking)の表現を選択するのかを問います。潜在的な世界状態の任意の符号化に対して、ベイズ最適な次トークンのクロスエントロピーは、不可減の条件付きエントロピーと、Jensen--Shannon の超過(excess)項に分解されます。この超過は、符号化が学習生態系の同値類(equivalence classes)を保存している場合に限って消失します。これにより、言語モデルに対する生態学的真実性(ecological veridicality)の厳密な概念が得られ、最小複雑性のゼロ超過解を、学習同値による商分割(quotient partition)として特定できます。次に、この固定符号化(fixed-encoding)の解析がトランスフォーマー系にどのようなときに適用されるのかを決定します。固定化された密(dense)型および固定化された Mixture-of-Experts(MoE)トランスフォーマーはこれを満たしますが、in-context learning はモデルの分離集合(separation set)を拡大せず、タスクごとの適応(per-task adaptation)は前提を破ります。この枠組みは、2 つの特徴的な失敗モードを予測します。すなわち、単純さ圧力(simplicity pressure)が得の小さい区別を優先的に取り除き得ること、そして学習で最適なモデルであっても、学習生態系を洗練するデプロイ生態系(deployment ecologies)では正の超過を被り得ることです。条件付きの動的拡張により、明示的な遺伝(heredity)、変異(variation)、選択(selection)の仮定の下で、モデル間の選択と事後学習(post-training)によって、そのようなギャップの区別を回復できることを示します。関連する量が直接観測可能なレジームにおいて、有限の生態系に対する厳密な検査と、制御された microgpt の実験により、静的分解、分割・併合(split-merge)しきい値、オフ生態系における失敗パターン、ならびに 2 つの生態系による救済メカニズムが検証されます。本研究の目標は、大規模なフロンティア・システムをモデル化することではなく、小型言語モデルを実験室のモデル生物として用い、表現選択に関する理論のための知見を得ることにあります。