Hopfieldパターン多重性によるタンパク質生成の条件付け

arXiv cs.LG / 2026/3/23

📰 ニュースTools & Practical UsageModels & Research

要点

  • サンプラーのアテンション・ロジットに1つのスカラー・バイアスを追加するだけで、再訓練やモデルアーキテクチャの変更を伴わずに、タンパク質配列生成をユーザー指定のサブセットへと条件付ける。
  • 条件付けはサブセットの任意の解釈(結合性、安定性、特異性など)に対して機能し、サブセットがどの程度優遇されるかを調整する多重性比によって制御される。
  • 次元削減されたエンコーディングが残基レベルの変動を保持できない場合、キャリブレーションギャップが生じることがある。ギャップはエンコーディングがサブセットを他の要素からどれだけうまく分離するかを示す、単純な幾何学的指標によって予測される。
  • Pfamファミリ(Kunitz、SH3、WW、Homeobox、Forkhead)を対象とした実験は、潜在空間の分離度とキャリブレーションギャップの間に単調な関係があることを示し、23個の既知の結合体をシードとしてオメガ-コノトキシンペプチドへこの手法を適用すると、主要なファーマコフォアと実験的に特定されたすべての結合決定因子を保持する千を超える候補が得られる。

概要:
確率的注意機構を用いたタンパク質配列生成は、訓練なしで小さなアラインメントから妥当なファミリーメンバーを生み出しますが、格納されているすべての配列を等しく扱い、興味のある機能的サブセットに向けた生成を指向することはできません。
サンプラーのアテンション・ロジットにバイアスとして追加される単一のスカラー・パラメータは、再訓練なし・モデルアーキテクチャの変更なしで、ファミリー全体の生成をユーザー指定のサブセットへ連続的にシフトさせることを示します。
実務者は、結合スクリーニングのヒットなどの小さな配列セットと、それらを生成がどれだけ強く優先するかを制御する多重比を提供します。
本手法は、サブセットが何を表すか(結合、安定性、特異性、または他の任意の特性)には依存しません。
条件付けはサンプラーの内部表現レベルで正確ですが、デコードされた配列表現型は、配列を符号化する際に用いられる次元削減が機能的分割を定義する残基レベルの変動を必ずしも保持しないため、満足のいく表現にならないことがあります。
この不一致をキャリブレーション・ギャップと呼び、エンコードが機能的サブセットをファミリーの残りとどれだけうまく分離しているかを示す、単純な幾何的指標によって予測されることを示します。
Pfamファミリー5種(Kunitz、SH3、WW、Homeobox、Forkheadドメイン)を対象とした実験は、分離とギャップの単調な関係が、幾何学的構成が4段階の範囲にわたっても成り立つことを確認しました。
痛みの信号伝達に関与するカルシウムチャネルを標的とするオメガ-コノトキシン様ペプチドへ適用すると、23個の特徴づけられた結合体から厳選されたシードを用いて、主要なファーマコフォアとすべての実験的に同定された結合決定因子を保持する千件を超える候補が生み出されます。
これらの結果は、確率的注意が、実験的に特徴付けられた数個のシーケンスを、生成モデルを再訓練することなく、多様な候補ライブラリへ拡張できることを示しています。