広告

Q-BIOLAT:QUBOベース最適化のためのバイナリ潜在タンパク質フィットネス・ランドスケープ

arXiv cs.LG / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Q-BIOLATは、コンパクトなバイナリ潜在空間を用いてタンパク質のフィットネス・ランドスケープをモデル化し、学習済みのタンパク質言語モデル埋め込みから、単項および対項の相互作用を捉えるQUBOサロゲートを学習する枠組みである。
  • 表現の品質が最適化にとって重要であることを示している。オートエンコーダに基づく潜在空間はバイナリ化後に崩壊し、退化したランドスケープを生み出して組合せ探索を破綻させうる一方で、PCAのような構造化表現は高エントロピーを保ち、デコード可能である。
  • 複数のデータセットおよびデータ条件の下での実験により、古典的な組合せ最適化手法(シミュレーテッド・アニーリング、遺伝的アルゴリズム、貪欲なヒルクライミング)が、構造化されたバイナリ潜在空間において強い性能を示すことが分かる。
  • 最適化目的をQUBO形式に落とし込むことで、Q-BIOLATは機械学習の表現学習と、離散的および量子に着想を得た最適化ワークフローを結び付ける。
  • 著者らは、再現性やさらなる研究を支えるために、関連するGitHubリポジトリを通じて公開コードおよびデータを提供している。

Abstract

タンパク質の適応度(fitness)最適化は、本質的に離散的な組合せ論的問題ですが、ほとんどの学習ベースのアプローチは連続的な表現に依存しており、主に予測精度によって評価されます。私たちは、コンパクトな2値潜在空間においてタンパク質の適応度ランドスケープをモデリングし最適化するための枠組み、Q-BIOLATを提案します。事前学習済みのタンパク質言語モデル埋め込みから出発して、2値の潜在表現を構築し、単体およびペアワイズ相互作用を捉える二次の非制約二値最適化(QUBO)サロゲートを学習します。 定式化にとどまらず、Q-BIOLATはタンパク質適応度モデリングに関する表現中心の観点を提供します。予測性能が類似した表現であっても、本質的に異なる最適化ランドスケープを生み得ることを示します。具体的には、自動エンコーダに基づく学習表現は2値化後に崩壊し、組合せ探索を支えられない退化した潜在空間を生成します。一方、PCAのような単純な構造化表現は、高エントロピーでデコーダブルであり、最適化に適した潜在空間を得ます。 複数のデータセットおよびデータ条件にわたって、シミュレーテッドアニーリング、遺伝的アルゴリズム、貪欲なヒルクライミングなどの古典的な組合せ最適化手法が、構造化された2値潜在空間において非常に有効であることを示します。目的関数をQUBO形式で表現することで、私たちのアプローチは現代の機械学習と、離散的かつ量子に着想を得た最適化とを結び付けます。 実装とデータセットは以下で公開されています: https://github.com/HySonLab/Q-BIOLAT-Extended

広告