平行・永続的マルコフ連鎖モンテカルロ法による、タンパク質M(複数)配列アラインメントからの進化的フィールドと結合の推定に関するボルツマン機械学習

arXiv stat.ML / 2026/4/21

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、タンパク質の複数配列アラインメントで観測される1サイトおよび2サイトのアミノ酸頻度統計から、進化的な単一サイトの場とペア間結合を推定することで逆ポッツ問題に取り組み、ボルツマン機械手法を用いる。
  • 方法の計算コストの高さを抑えるため、学習の各ステップで周辺分布を推定するための並列・永続的マルコフ連鎖モンテカルロ(MCMC)手法を導入し、さらに訓練を高速化するために確率的勾配降下法も併用している。
  • ハイパーパラメータ調整は、2つの正則化パラメータ(場と結合)を、接触残基ペア予測の精度だけに依存せず、タンパク質の立体構造(コンフォメーション)に適した特定の条件を満たすように調整することで改善している。
  • 提案手法は8つのタンパク質ファミリーに適用され、タンパク質の構造・進化研究に資する再現性のある進化パラメータを導出する実用性が示されている。

要旨: 相同タンパク質配列の複数配列アラインメントで観測される単一部位および部位間のアミノ酸頻度から、それらの進化的な単一部位フィールドと対(ペア)結合を推定するための逆Potts問題は、タンパク質の構造と進化の研究において有用な方法の一つであり続けるだろう。フィールドと結合の再現性が最も重要であるため、ここでは計算量が大きいもののボルツマンマシン法を用いる。ボルツマンマシンに必要な計算時間を削減するために、各学習ステップにおいて単一部位および対(ペア)の周辺分布を推定するための、並列かつ永続的なマルコフ連鎖モンテカルロ法を用いる。さらに、各学習における計算時間を削減するために確率的勾配降下法も用いる。もう一つの課題はハイパーパラメータの値をどのように調整するかである。進化的フィールドと結合には2つの正則化パラメータがある。接触残基ペア予測の精度は、しばしばハイパーパラメータを調整するために用いられる。しかし、これらの正則化パラメータには感度がない。ここでは、タンパク質のコンフォメーションに適した特定の条件を満たすように、フィールドと結合の値を調整する。この方法は8つのタンパク質ファミリーに適用されている。