広告

GenoBERT:正確な遺伝子型インピュテーションのための言語モデル

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • GenoBERTは、位相情報付きの遺伝子型をトークン化し、自己注意(self-attention)を用いて短距離および長距離の連鎖不平衡(LD)をモデル化する、参照パネル不要のトランスフォーマー型遺伝子型インピュテーション手法である。
  • 人種的背景を跨いだベンチマーク、および欠損率(5〜50%)の条件設定において、Louisiana Osteoporosis Study(LOS)と1000 Genomes Project(1KGP)の両データでGenoBERTは4つのベースラインを上回り、実用的な疎性レベルにおいて非常に高い全体精度を示す。
  • 本手法は欠損率が高い場合(50%)でも強い性能を維持し、連鎖不平衡が弱い状況やサンプルサイズが限られている設定を含め、人種群ごとに一貫した改善を継続して提供する。
  • 128-SNPのコンテキストウィンドウ(約100 kb)は、LD減衰解析により、正確なインピュテーションのための局所的な相関構造を捉えるのに十分であることが示されている。
  • 参照パネルへの依存を取り除きつつ高い精度を維持することで、GenoBERTは下流のゲノムリスク予測や関連解析を改善し得るスケーラブルなアプローチとして位置づけられる。

抽象: 遺伝子型インピュテーションは、ゲノムワイド関連解析(GWAS)やリスク予測研究に対して高密度なバリアント被覆を可能にしますが、従来の参照パネル手法は祖先バイアスや希少バリアントの精度低下によって制約されています。本研究では、トランスフォーマーに基づく参照不要の枠組みであるGenotype Bidirectional Encoder Representations from Transformers(GenoBERT)を提案します。GenoBERTは、相分割された遺伝子型をトークン化し、自己注意機構によって短距離および長距離の連鎖不平衡(LD)依存性の両方を捉えるトランスフォーマーベースの方法です。Louisiana Osteoporosis Study(LOS)と1000 Genomes Project(1KGP)を含む2つの独立データセットについて、祖先グループごと、ならびに複数の遺伝子型欠損率(5〜50%)にわたってベンチマーク評価を行った結果、GenoBERTは4つのベースライン手法(Beagle5.4、SCDA、BiU-Net、STICI)と比較して最も高い総合精度を達成しました。実用的な疎性レベル(欠損最大25%)では、GenoBERTはデータセット間で高い総合インピュテーション精度(r^2\approx 0.98)を実現し、欠損率50%においても堅牢な性能(r^2 > 0.90)を維持します。異なる祖先にわたる実験結果は、データセット全体で一貫した改善を裏付けており、小標本サイズや弱いLDに対する耐性も示されています。128-SNP(単一ヌクレオチド多型)からなるコンテキストウィンドウ(約100 Kb)については、LD減衰解析により、局所的な相関構造を捉えるのに十分であることが検証されています。高精度を維持しつつ参照パネルへの依存を排除することで、GenoBERTは遺伝子型インピュテーションのためのスケーラブルで堅牢な解決策を提供し、下流のゲノムモデリングの基盤となります。

広告