Abstract
生成的モデリングは、タンパク質研究における中心的なパラダイムとなり、機械学習を構造予測の枠を超えて、配列設計、バックボーン生成、逆フォールディング、生体分子相互作用モデリングへと拡張してきました。しかし、文献は表現、モデル種別、タスク定式化にまたがって断片化しており、そのため手法を比較したり適切な評価基準を見いだしたりすることが困難です。本調査は、タンパク質研究における生成AIを、(i) 配列・幾何学的・マルチモーダル表現をまたぐ基礎的表現、(ii) mathrm{SE}(3)-同変拡散、フローマッチング、ハイブリッドな予測器・生成器システムを含む生成アーキテクチャ、(iii) 構造予測やde novo設計から、タンパク質-リガンド相互作用およびタンパク質-タンパク質相互作用までのタスク設定、という3つの観点のもとに体系的に統合します。手法をカタログ化することにとどまらず、前提、条件付けメカニズム、制御可能性を比較し、情報漏えいに配慮した分割(leakage-aware splits)、物理的妥当性の検証、機能志向のベンチマークを重視する評価のベストプラクティスを統合します。結論として、重要な未解決課題として、コンフォメーションのダイナミクスと本質的に無秩序な領域のモデリング、大規模なアセンブリへのスケーリングと効率の維持、デュアルユースのバイオセキュリティ上のリスクに対する頑健な安全性フレームワークの開発を挙げます。本調査は、アーキテクチャ上の進歩を実践的な評価基準と責任ある開発の考慮事項と統合することで、予測モデリングから信頼でき、機能に基づくタンパク質エンジニアリングへの移行を加速することを目指します。