トークン化はマルチモーダル大規模言語モデルに建築平面図を理解・生成・編集させる

arXiv cs.CV / 2026/3/13

📰 ニュースModels & Research

要点

  • HouseMindは、建築平面図の理解、生成、編集を1つのフレームワークで統合するマルチモーダル大規模言語モデルであり、幾何学・意味論・空間階層にわたる結合推論の課題に取り組みます。
  • レイアウトと記号的推論を橋渡しする統一語彙を構築するため、部屋のインスタンスを表す離散的なトークンを導入します。
  • マルチモーダル整合と指示チューニングにより、テキスト指示から一貫性があり、制御可能なレイアウトを合成できます。
  • 実験では、効率性を保ちながら局所的にデプロイ可能である一方、幾何学的妥当性と制御性が向上することが示されました。

概要: 建築平面図の設計は、幾何学・意味論・空間階層の結合推論を必要としますが、これは現在のAIシステムにとって依然として大きな課題です。最近の拡散モデルと言語モデルが視覚的忠実度を向上させているにもかかわらず、整合的な空間推論と制御可能な生成には依然として苦戦しています。私たちは、建築平面図の理解・生成・編集を1つのフレームワークで統合するマルチモーダル大規模言語モデルである HouseMind を提示します。レイアウトと記号的推論を橋渡しする統一語彙を構築するために、離散的な部屋インスタンス・トークンを導入します。マルチモーダル整合と指示チューニングにより、テキスト指示から一貫性があり、制御可能なレイアウトを合成します。実験は、本フレームワークが、効率的で局所展開可能である一方で、幾何学的妥当性と制御性を向上させることを示しています。