シミュレーション画像から生成した手続き的な植物の建築(アーキテクチャ)表現を生成するためのビジョン言語モデル

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、シミュレーション(合成)画像入力から3Dの手続き的植物アーキテクチャ表現を生成するための、ビジョン言語モデルのアプローチを提案する。
  • 3Dセンサや多視点のコンピュータビジョンに依存する代わりに、植物アーキテクチャをトークン列としてエンコードし、言語モデルがそれを予測することで、器官レベルの幾何学的および位相的パラメータの復元を可能にする。
  • 学習と評価では、Helios 3D植物シミュレータにより生成された合成のウシマメ(cowpea)データセットを用い、XMLのグラウンドトゥルースを通じて正確なアーキテクチャパラメータが利用できる。
  • 本モデルは、シーケンス予測において教師強制(teacher forcing)でトークンF1が0.73と高い性能を示し、自己回帰生成においても高い類似度を達成している(BLEU-4が94.00%、ROUGE-Lが0.5182)。
  • 著者らは、VLMを用いて画像から器官レベルのアーキテクチャパラメータ抽出が可能であると結論づけており、今後の課題として実世界の画像へのワークフロー拡張を計画している。