3DrawAgent:初期の対照的経験によりLLMに3D描画を教える

arXiv cs.CV / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、学習不要(training-free)の枠組みである3DrawAgentを提案し、自然言語プロンプトから3Dスケッチをベジェ曲線として逐次生成するためにLLMを用いる。
  • 明示的な教師データによる厳密な監督ではなく、相対的経験最適化(relative experience optimization)を採用する。具体的には、ペア同士の比較によって一方のスケッチが他方より優れているかを判定し、その評価にはCLIPベースの知覚報酬に加え、LLMによるきめ細かな質的評価を用いる。
  • 手法はGroup Reward Policy Optimization(GRPO)の枠組みを3Dの「空間認識(spatial awareness)」向上のために適応し、幾何学的なフィードバックを通じてモデルパラメータを更新せずにブラックボックス強化学習を可能にする。
  • 実験では、3DrawAgentが複雑で一貫した3Dベジェスケッチを生成できること、幾何学的推論が自発的に現れること、さらに新規形状への汎化が示される。
  • 全体として本研究は、初期の対照的/相対的経験シグナルを活用することで、学習不要の3Dスケッチ知能を進展させる新しいパラダイムを主張している。

Abstract

3D空間におけるスケッチは、形状・構造・空間的関係について表現力豊かな推論を可能にしますが、自然言語によって3Dスケッチを生成することは依然として大きな課題です。本研究では、大規模言語モデル(LLM)を用いて、幾何学的フィードバックのもとで3Dベジエ曲線を逐次的に描画する、トレーニング不要の言語駆動型フレームワーク「3DrawAgent」を提案します。従来の2Dスケッチエージェントとは異なり、本手法は、近年提案されたGroup Reward Policy Optimization(GRPO)パラダイムを適応させる相対的な経験最適化戦略を導入します。明示的な正解データに基づく教師あり監督に依存するのではなく、生成されたスケッチ同士のペアワイズ比較を構築し、各ペアは、CLIPベースの知覚報酬と、LLMベースのきめ細かな定性的評価に基づいて、相対的に良い結果と悪い結果で構成します。これらの経験は、その後、3D描画の事前知識を反復的に洗練するために用いられ、モデルの3D認識をブラックボックス強化学習として実現します。この設計により、パラメータ更新を行わずに、モデルが空間理解と描画品質を自己改善できるようになります。実験の結果、3DrawAgentは多様なテキストプロンプトから複雑で整合的な3Dベジエスケッチを生成でき、創発的な幾何学的推論を示し、さらに新規の形状にも汎化できることがわかりました。これにより、トレーニング不要の3Dスケッチ知能を発展させるための新たなパラダイムを確立します。