要旨: 3D空間推論のためのコード生成モデルを評価するには、生成されたコードを現実的な環境で実行し、表面的な正しさを超えた出力を評価する必要があります。私たちは、3D理解と環境生成に関するコード生成能力を分析するためのプラットフォーム VoxelCode を導入します。私たちのプラットフォームは、自然言語によるタスク仕様、Unreal Engine における API 駆動のコード実行、さらに自動メトリクスと人手による評価の両方を支える統一された評価パイプラインを統合しています。有用性を示すために、3つの推論次元にまたがるボクセル操作タスクのベンチマークである VoxelCodeBench を構築します。すなわち、記号的解釈、幾何学的構築、そして芸術的構成です。主要なコード生成モデルを評価した結果、実行可能なコードを生成することは空間的に正しい出力を生成するよりはるかに容易であり、幾何学的構築と多対象の合成が特に難しいことが分かりました。プラットフォームとベンチマークをオープンソース化することで、コミュニティに対し、新しい3Dコード生成ベンチマークの開発や、将来のモデルにおける空間推論の探究を行うための拡張可能な基盤を提供します。
VoxelCodeBench:コード生成による3Dワールドモデリングのベンチマーク
arXiv cs.LG / 2026/4/6
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 本論文は、API駆動のパイプラインを通じて生成したコードをUnreal Engine上で実行することで、3D空間推論におけるコード生成モデルを評価するプラットフォーム「VoxelCode」を紹介する。
- 「VoxelCodeBench」は、象徴的解釈、幾何学的構築、芸術的構成にわたるボクセル操作タスクを網羅するベンチマークであり、さまざまな推論能力を検証する。
- 最先端のコード生成モデルの評価では、「実行可能なコード」を生成することは「空間的に正しい出力」を生成することに比べて大幅に容易であることが分かった。特に、幾何学的構築や複数オブジェクトの合成が難しい。
- このプラットフォームは、自動指標と人手による評価を組み合わせ、表面的なテキスト一致だけでは反映できない現実に即した正しさをよりよく捉えることを目指す。
- 著者らは、将来の3Dコード生成ベンチマークや空間推論研究のために研究コミュニティが基盤を拡張できるよう、プラットフォームとベンチマークの両方をオープンソースとして公開している。



