要旨: RNAの構造モデリングは依然として困難です。RNAのバックボーンは非常に柔軟で、非標準的な相互作用が蔓延しており、実験的に決定された3D構造は比較的希少です。私たちは \emph{RiboSphere} を導入します。これは \emph{discrete} な幾何表現をRNAに学習させるフレームワークで、ベクトル量子化とフローマッチングを組み合わせて実現します。設計はRNA構造のモジュラーな組織化に動機づけられており、複雑な折りたたみは繰り返し現れる構造モチーフから構成されています。RiboSphereは、SE(3)-不変性(回転・並進不変性)を持つ特徴を生成する幾何トランスフォーマーエンコーダを用い、有限スカラー量子化(FSQ)によってこれらを離散化し、潜在コードの有限語彙へと変換します。これらの離散コードに条件付けされたフロー・マッチング・デコーダは原子座標を再構成し、高忠実度の構造生成を可能にします。学習済みのコードインデックスは特定のRNAモチーフに富んでいることがわかり、モデルがモチーフレベルの構成的な(成分的な)構造を捉え、純粋な圧縮ボトルネックとして機能していないことを示唆します。ベンチマーク全体を通じて、RiboSphereは構造再構成で高いパフォーマンスを発揮します(RMSD 1.25 Å、TMスコア 0.84)。また、事前学習済みの離散表現は逆折りたたみとRNA-リガンド結合予測に効果的に移送され、データ不足の領域においても堅牢な一般化を示します。
RiboSphere:RNA構造の統一的で効率的な表現を学習する
arXiv cs.LG / 2026/3/23
📰 ニュースModels & Research
要点
- RiboSphereは、モチーフレベルの構造を捉えるために、ベクトル量子化とフロー整合を組み合わせたRNA構造の離散的幾何表現を導入する。
- 本手法は、幾何トランスフォーマーエンコーダを用いてSE(3)不変特徴量を生成し、それらを有限スカラー量子化(FSQ)によって有限の潜在コード語彙へ離散化する。
- フロー整合デコーダはこれらのコードを条件として原子座標を再構成し、高い再構成忠実度を達成する(RMSD 1.25 Å、TMスコア 0.84)。
- 学習された離散コードは特定のRNAモチーフに対して表現力が高められ、逆折り畳み設計やRNAリガンド結合予測などの下流タスクへ転移する。データ不足の状況下でも強い一般化能力を示す。




