要旨: ゲノムにおける基盤モデルは、自然言語処理におけるそれらと比べて、成功はまちまちであることが示されている。にもかかわらず、その限定的な有効性の理由は十分に理解されていない。本研究では、訓練データから学習し、基盤的能力を発達させるようなモデルの能力を制限する基本的要因としてのエントロピーの役割を調査する。私たちは、テキストおよびDNA配列上でモデルのアンサンブルを学習し、それらの予測、静的埋め込み、および経験的フィッシャー情報の流れを分析する。ゲノム配列の高いエントロピー――未見トークン予測の観点から見ると――は、ほぼ一様な出力分布をもたらし、モデル間の不一致を引き起こし、さらに、アーキテクチャ、学習、データが一致しているとしても、静的埋め込みを不安定にすることを示す。次に、DNA上で学習したモデルでは、埋め込み層にフィッシャー情報が集中し、トークン間の関係を活用できていないように見えることを実証する。これらの結果は、配列のみからの自己教師あり学習がゲノムデータには適用できない可能性を示唆しており、ゲノム基盤モデルを訓練するための現在の手法が依拠している仮定に疑問を投げかける。
エントロピー、不一致、そしてゲノミクスにおける基盤モデルの限界
arXiv cs.LG / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、エントロピーが、ゲノミクス領域における基盤モデルが自然言語モデルと比べて結果がまちまちになっている主因であると主張する。
- DNAとテキストでアンサンブルを学習させることで、著者らは高いゲノム配列エントロピーが次トークン出力をほぼ一様にし、モデル間の強い不一致を生み、静的埋め込みが不安定になることを示す。
- 実験的フィッシャー情報フローを用いた分析から、DNA学習モデルはトークン間の関係を捉えるのではなく、埋め込み層にフィッシャー情報を集中させることが示唆される。
- これらの結果は、配列のみからの自己教師あり事前学習がゲノムデータへうまく転移しない可能性を示し、現在のゲノム基盤モデルの学習アプローチで前提とされている仮定に疑問を投げかける。



