| DNA配列言語モデルは、配列アラインメントができないことを見つけられるか? Arc Instituteのゲノム基盤モデルEvo2を、9.3兆ヌクレオチドで学習させたものを調べ、学習された表現が生の配列類似性を超えた生物学的関係を捉えているかを確認しています。 設定: Evo2の中間層から512bpのウィンドウを用いて25個のヒト遺伝子にわたる埋め込みを抽出し、モデルが類似とみなすものとBLAST(標準的な配列アラインメントツール)が見つけるものを比較します。 ほとんどの強い一致は、共通の反復元素(特にAlu)によって導かれました。しかし、より厳密なフィルタリングの後、1組のクリーンなペアが残りました: VIM(ビメンチン、chr10)遺伝子の一部とDES(デスミン、chr2)遺伝子の一部は、検出可能な配列マッチがなくても非常に高い類似性を示しました(コサイン類似度0.948)。両領域はいずれも筋肉および結合組織細胞の活性プロモーターであり、重要な調節タンパク質を共有し、しばしば一緒に発現する2つの関連遺伝子に由来します。 これは、DNA文字列そのものだけでなく、遺伝子発現の調節パターンを認識する能力をEvo2が学習し始めていることを示唆します—配列が全く異なるように見えてもです。 とはいえ、この種の意味のある信号を見つけるのは依然として難しく、重いフィルタリングの後にのみ現れ、他の多くの一致は依然ノイズのままです。 全体として、Evo2は配列アラインメントを超えた実際の生物学的情報をある程度捉えているようですが、実用的に有用にするにはさらに多くの作業が必要です。 ゲノミクスとAIの分野の皆さんのご意見も伺いたいです。 [リンク] [コメント] |
[R] ゲノム大規模言語モデル
Reddit r/MachineLearning / 2026/3/17
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- Evo2は、9.3兆個のヌクレオチドを用いて訓練されたArc Instituteのゲノム基盤モデルであり、生の配列類似性を超えた調節関係を捉える能力が検討されている。
- 研究者は、25のヒト遺伝子にまたがる512塩基対のウィンドウに対してEvo2の中間層から埋め込み表現を抽出し、モデルの類似性をBLASTで得られた類似性と比較した。
- 注目すべき発見は、VIM遺伝子とDES遺伝子の間に、配列の検出可能な一致が見られないにもかかわらずコサイン類似度0.948という高度に類似した領域が存在し、両方とも活性プロモーターであることから、モデルは遺伝子調節のパターンを学習している可能性を示唆している。
- 強い一致の多くはAluなどのリピート要素によって生じており、多くの信号はノイズのままで、信号はまだ頑健とは言えないことを示している。
- 総じて、結果はEvo2が配列アラインメントを超えた実際の生物学的情報をいくつか捉えていることを示しているが、これを実用的なツールへ転換するには、さらなる作業とコミュニティの意見と協力が必要になる。


