ReConText3D:リプレイベースの継続的テキストから3D生成

arXiv cs.CV / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ReConText3Dは、破滅的忘却を回避しつつ、新しい3Dカテゴリをテキストから段階的に学習することを目的とした、最初の継続的(continual)テキストから3D生成フレームワークとして提案される。
  • 著者らは、既存のテキストから3Dモデルがインクリメンタル学習下で劣化することを示し、過去に学習したカテゴリでの性能を維持するリプレイ(replay)ベースのアプローチの必要性を動機づける。
  • ReConText3Dは、テキスト埋め込みに対するk-Center選択により、コンパクトで多様なリプレイメモリを構築し、基盤となる生成モデルのアーキテクチャを変更することなく、過去の知識をリハーサルできるようにする。
  • 本論文では、Toys4Kから派生したクラスインクリメンタルのベンチマークToys4K-CLを導入する。バランスが取られ、かつ意味的に多様な分割を用いることで、継続的テキストから3D学習を体系的に評価する。
  • Toys4K-CLに対する実験では、ReConText3Dが複数の生成バックボーンにおいてベースラインを上回り、古いクラスと新しく学習したクラスの双方で高品質な生成を維持することが示される。

Abstract

継続学習は、モデルが以前に学習した能力を保持しながら、時間の経過とともに新しい知識を獲得できるようにします。しかし、テキストから3D生成への適用は未だ検討されていません。私たちは、初めての継続的テキストから3D生成のための枠組みであるReConText3Dを提案します。まず、既存のテキストから3D生成モデルが、段階的な学習の下では壊滅的忘却(catastrophic forgetting)により性能が劣化することを示します。ReConText3Dは、生成モデルが、テキストによる記述から新しい3Dカテゴリを段階的に学習しつつ、これまでに見たアセットを合成する能力を保持できるようにします。我々の手法は、テキスト埋め込みに対するk-Center選択(text-embedding k-Center selection)により、コンパクトで多様なリプレイメモリを構築し、基盤となるアーキテクチャを変更することなく、過去の知識を代表的にリハーサルできるようにします。継続的テキストから3D学習を体系的に評価するために、Toys4Kデータセットから派生したベンチマークであるToys4K-CLを導入します。これは、クラス間のインクリメンタル分割をバランスよく、かつ意味的に多様に提供します。Toys4K-CLベンチマークに対する大規模な実験により、ReConText3Dが異なる生成バックボーンのもとでも一貫してすべてのベースラインを上回り、古いクラスと新しいクラスの両方に対して高品質な生成を維持することが示されます。私たちの知る限り、本研究はテキストから3D生成のための最初の継続学習フレームワークおよびベンチマークを確立するものであり、インクリメンタルな3D生成モデリングに新たな方向性を切り開きます。プロジェクトページは次の通りです: https://mauk95.github.io/ReConText3D/