要旨: 生物学および物理学のための基盤モデルは予測精度を最適化しますが、その内部表現は、モデル化対象の連続的な幾何構造を系統的に保持できないことが一貫して起きています。原因は次の通りです。すなわち、幾何アラインメント税(Geometric Alignment Tax)であり、連続多様体を離散的なカテゴリ的ボトルネックを通して強制することによる本質的なコストです。合成の力学システムに対する制御されたアブレーションにより、同一のエンコーダ上でクロスエントロピーを連続ヘッドに置き換えると、幾何学的歪みが最大8.5倍低減することを示します。一方で、学習されたコードブックでは、復元は改善するにもかかわらず、より細かな量子化が幾何学を悪化させてしまう、非単調な二重拘束(double bind)が見られます。連続的な目的関数のもとでは、3つのアーキテクチャが1.3倍だけ異なり、離散的なトークン化のもとでは3,000倍にまで分岐します。レート・ディストーション理論とMINEを用いて14の生物学的基盤モデルを評価した結果、3つの失敗モードを特定します。すなわち、局所-大域デカップリング(Local-Global Decoupling)、表現圧縮(Representational Compression)、そして幾何の空虚性(Geometric Vacuity)です。制御された実験により、実際のDNAにおけるEvo 2の逆相補(reverse-complement)の頑健性は、学習された対称性ではなく保存された配列組成を反映していることが確認されます。いかなるモデルも、歪みが低く、相互情報量が高く、かつ大域的な整合性を同時に達成できません。
幾何学的アラインメント税:科学基盤モデルにおけるトークン化 vs. 連続幾何
arXiv cs.LG / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、科学基盤モデル(生物/物理)がしばしば、連続的な基底幾何を保持できない理由として、連続多様体を離散的なカテゴリ・ボトルネック(トークン化/量子化)へ押し込むことで生じる固有の「幾何学的アラインメント税」を挙げている。
- 制御された合成実験では、エンコーダを固定し、交差エントロピーの代わりに連続ヘッドを用いることで、幾何学的歪みを最大8.5倍まで低減できる。一方で学習されたコードブックでは、再構成が改善しても、より細かな量子化が幾何を悪化させ得る非単調な効果が観測される。
- アーキテクチャと目的関数の比較から、連続的な目的で最適化されたモデルは大きくは(約1.3倍)しか変わらないのに対し、離散的なトークン化の下では劇的に(約3,000倍)分岐することが示され、トークン化が幾何学的ミスアラインメントを強く増幅していることが示唆される。
- レート・ディストーション理論とMINEを用いて14の生物学的基盤モデルを分析した結果、著者らは3つの失敗レジーム――Local-Global Decoupling(局所-大域の分離)、Representational Compression(表現の圧縮)、Geometric Vacuity(幾何の空疎化)――を特定し、幾何・相互情報量・大域的コヒーレンスを同時に最適化できないことを明らかにしている。
- DNAに焦点を当てた実験では、Evo 2のリバースコンプリメント頑健性は実際に学習された対称性によるのではなく、保存された配列組成に起因することが示唆され、トークンベース表現が構造をエンコードできる範囲の限界が強調される。
