シミュレーション画像から生成した手続き的な植物の建築（アーキテクチャ）表現を生成するためのビジョン言語モデル

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、シミュレーション（合成）画像入力から3Dの手続き的植物アーキテクチャ表現を生成するための、ビジョン言語モデルのアプローチを提案する。
3Dセンサや多視点のコンピュータビジョンに依存する代わりに、植物アーキテクチャをトークン列としてエンコードし、言語モデルがそれを予測することで、器官レベルの幾何学的および位相的パラメータの復元を可能にする。
学習と評価では、Helios 3D植物シミュレータにより生成された合成のウシマメ（cowpea）データセットを用い、XMLのグラウンドトゥルースを通じて正確なアーキテクチャパラメータが利用できる。
本モデルは、シーケンス予測において教師強制（teacher forcing）でトークンF1が0.73と高い性能を示し、自己回帰生成においても高い類似度を達成している（BLEU-4が94.00%、ROUGE-Lが0.5182）。
著者らは、VLMを用いて画像から器官レベルのアーキテクチャパラメータ抽出が可能であると結論づけており、今後の課題として実世界の画像へのワークフロー拡張を計画している。

日経XTECH

日経XTECH

日経XTECH

Dev.to

Dev.to