EvoLen:DNA言語モデルのための進化ガイド付きトークン化

arXiv cs.LG / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • EvoLenはDNA言語モデルのための進化ガイド付きトークン化を提案し、DNAのトークン境界は、言語のような規則性ではなく、進化的制約のもとで保存される機能モチーフによって導かれるべきだと主張する。
  • この手法は、配列を層別化/グルーピングして種をまたぐ進化シグナルを取り込み、各グループごとに個別のBPEトークナイザを学習し、保存されるパターンを優先するルールに従って語彙を統合する。
  • さらにEvoLenは、動的計画法による長さを考慮したデコーディングを適用し、表現の中でモチーフ規模の機能単位をより適切に保持する。
  • 制御された実験では、EvoLenは機能的配列パターンの保存を改善し、ゲノム文脈をより明確に区別し、進化的制約との整合性を高めるとともに、DNALMベンチマークにおいて標準BPEと同等、あるいはそれを上回る性能を示す。
  • 本研究は、トークン化の選択がDNALMの性能と解釈可能性における重要な帰納バイアスであり、進化情報がより生物学的に意味のあるトークン表現をもたらすと結論づける。

要旨: DNA言語モデル(DNALM)において、トークンは表現の基本単位として機能するが、その設計は十分に検討されていない。自然言語とは異なり、DNAには固有のトークン境界や事前に定義された合成規則が存在しないため、トークン化は自然に指定されるものというより、基本的なモデリング上の意思決定となる。バイトペアエンコーディング(BPE)のような既存手法は、人が生成する言語的な規則性を反映するトークン構造を捉える点で優れている。一方でDNAは、言語的慣習ではなく、生物学的機能と進化的制約によって組織化されている。私たちは、DNAのトークン化は、進化的制約のもとで保存され、通常は種をまたいで維持される短い、反復する機能的配列パターン(調節モチーフなど)を優先すべきだと主張する。私たちは、モチーフ尺度の機能的配列ユニットをより適切に保持するために、進化的階層化と長さに応じたデコードを組み合わせたトークナイザであるEvoLenによって、進化情報をトークン化プロセスに直接組み込む。EvoLenは、種をまたぐ進化のシグナルを用いてDNA配列をグループ化し、各グループごとに個別のBPEトークナイザを学習し、保存されるパターンを優先するルールによって得られた語彙を統合し、動的計画法による長さに応じたデコードを適用する。制御された実験により、EvoLenは、機能的配列パターンの保持、ゲノム文脈間での識別、進化的制約との整合性の向上を達成し、さらに多様なDNALMベンチマークにおいて標準BPEと同等、またはそれを上回る性能を示す。これらの結果は、トークン化が重要な帰納バイアスを導入し、進化情報を取り入れることで、より生物学的に意味のある、かつ解釈可能な配列表現が得られることを示している。