エージェントをパーツごとに1つずつスケッチさせる方法

arXiv cs.AI / 2026/3/23

📰 ニュースModels & Research

要点

  • 本論文は、監督付きファインチューニングに基づく新しいプロセス報酬型強化学習の枠組みで訓練されたマルチモーダル言語モデルベースのエージェントを用い、パーツごとに1つずつベクトルスケッチを生成する方法を提案する。
  • ControlSketch-Part という新しいデータセットには、部品レベルの豊富な注釈と、スケッチを意味的な部品に分割し、構造化されたラベリングプロセスを通じてパスを割り当てる汎用的な自動注釈パイプラインが含まれています。
  • このアプローチは、生成中の部位レベルの構造と視覚的フィードバックを利用して、解釈可能で制御可能、局所的に編集可能なテキストからベクトルスケッチ生成を実現します。
  • 結果は、ベクトルスケッチ生成における制御性と解釈可能性の向上を示し、描画プロセスに対するより細かな制御を可能にします。

要旨:私たちは、部品を1つずつ生成するベクトルスケッチの方法を開発します。これを実現するために、監視付き微調整に続く新しいマルチターンのプロセス報酬強化学習を用いて、マルチモーダル言語モデルベースのエージェントを訓練します。私たちのアプローチは、ControlSketch-Partと呼ぶ新しいデータセットによって実現されます。これは、スケッチの部品レベルの豊富な注釈を含んでおり、新規の汎用自動注釈パイプラインを用いて取得されたベクトルスケッチを意味的な部品へと分割し、構造化された多段階ラベリングプロセスを用いて部品にパスを割り当てます。私たちの結果は、構造化された部品レベルデータを組み込み、プロセスを通じてエージェントに視覚的フィードバックを提供することによって、解釈可能で制御可能かつ局所的に編集可能なテキストからベクトルスケッチを生成できることを示しています。