要旨: 生成モデルにおける拡散とフローマッチングのアプローチは、画像生成やタンパク質の折りたたみ・設計のように状態空間が連続である領域、あるいは拡散型の大規模言語モデルに代表されるように離散である領域で有望な結果を示してきました。これらは、状態内の要素数が事前に固定されている場合(例:画像)に自然に適合しますが、例えば大規模言語モデルの応答の長さ、あるいはタンパク質鎖中のアミノ酸数のように、事前には分からない場合には、場当たり的な解決策が必要になります。
ここで我々は、拡散やフローマッチングのアプローチと同様に、単純な分布をデータ分布へ輸送する生成モデリングの枠組みである「分岐フロー(Branching Flows)」を提案します。しかし分岐フローでは、状態の要素は二分木の森(forest)上で進化し、モデルによって学習される率で確率的に分岐し、また消滅します。これにより、生成の過程でモデルが配列中の要素数を制御できるようになります。さらに、分岐フローは、離散集合、連続ユークリッド空間、滑らかな多様体、およびこれらの成分を混ぜ合わせる「マルチモーダル(multimodal)」な積空間上での、任意のフローマッチングのベースとなるプロセスと組み合わせ可能であることも示します。
我々は、3つの領域でこれを実証します:小分子生成(マルチモーダル)、抗体配列生成(離散)、およびタンパク質バックボーン生成(マルチモーダル)です。分岐フローが、安定した学習目的を備えた有能な分布学習器であり、さらに新たな能力を可能にすることを示します。




