Abstract
私たちは、二値潜在空間におけるタンパク質適合性ランドスケープをモデリングし最適化するためのフレームワークとして Q-BIOLAT を提案します。タンパク質配列から出発し、事前学習済みのタンパク質言語モデルを活用して連続埋め込みを取得し、それをコンパクトな二値潜在表現へと変換します。この空間では、タンパク質適合性は二次無拘束二値最適化(QUBO)モデルを用いて近似され、シミュレーテッドアニーリングや遺伝アルゴリズムなどの古典的ヒューリスティックによる効率的な組合せ探索を可能にします。 ProteinGym ベンチマークでは、Q-BIOLAT がタンパク質適合性ランドスケープに意味のある構造を捉え、高適合性変異体の同定を可能にすることを示します。単純な二値化方式を用いているにもかかわらず、我々の手法は訓練データの適合性分布の上位分布における最近傍を含むシーケンスを一貫して取得します。特に最も強い設定の下で顕著です。さらに、異なる最適化戦略は異なる挙動を示し、進化的探索は高次元の潜在空間でより良く機能し、局所探索は現実的なシーケンスの保存性を保つことに競争力を保ちます。実証的な性能を超えて、Q-BIOLAT はタンパク質表現学習と組合せ最適化との自然な橋渡しを提供します。タンパク質適合性を QUBO 問題として定式化することで、私たちのフレームワークは新興の量子アニーリング・ハードウェアと直接互換性を持ち、量子支援型タンパク質エンジニアリングの新しい方向を開きます。
実装は公開されています: https://github.com/HySonLab/Q-BIOLAT




