広告

GIFT: 幾何学的フィードバックによる画像からCADプログラムへの合成をブートストラップする

arXiv cs.LG / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、画像からCADプログラム合成における中核的なボトルネックを、設計の複雑さが増すにつれて、視覚的な幾何と記号的なプログラム構文を確実に対応付けるための十分な学習データが不足している点として特定する。
  • Geometric Inference Feedback Tuning(GIFT)と呼ぶデータ拡張フレームワークを提案し、テスト時の予測から得られる幾何学的フィードバックを用いて、追加の高品質な学習例をブートストラップする。
  • GIFTには2つの手法が含まれる——多様で高忠実度なプログラムを維持するSoft-Rejection Samplingと、ニアミス出力をより難しい幾何に対する合成学習サンプルへ変換するFailure-Driven Augmentationである。
  • 本手法は、推論時の探索をモデルパラメータへ償却(amortize)することで、強力な教師ありベースラインに比べて平均IoUを12%改善しつつ、推論計算量を約80%削減する。
  • 著者らは、より複雑なマルチモーダル・システムに対して競争力のある性能を報告しており、人手による注釈を追加せず、また特殊なモデル構造を必要としない。

Abstract

画像から実行可能なCADプログラムを生成するには、視覚的な幾何形状と、記号的なプログラム表現との間の整合が必要です。しかし、現在の手法は、設計の複雑さが増すにつれて、この能力を確実に学習できません。既存の微調整アプローチは、限られた教師ありデータセットに依存するか、あるいは高価な事後学習パイプラインに依存しており、その結果、脆弱なシステムとなって、生成的CAD設計の進展を制限しています。私たちは、主要なボトルネックはモデルやアルゴリズムの能力ではなく、視覚的な幾何形状とプログラム構文を整合させる多様な訓練例が不足している点にあると主張します。この制約は、単に問題設定が厳しいだけでなく、多様で検証済みの工学データセットの収集が高コストであり、かつスケールしにくいため、堅牢な生成的CADモデルの開発が制限されていることに起因して特に深刻です。私たちは、幾何学的フィードバックを活用して、テスト時の計算(compute)をブートストラップされた高品質な訓練サンプル群に変えるデータ拡張フレームワークである Geometric Inference Feedback Tuning(GIFT)を提案します。GIFT は2つのメカニズムを組み合わせます。Soft-Rejection Sampling(GIFT-REJECT)は、厳密な正解(ground-truth)との一致を超えて多様で高忠実度なプログラムを保持し、Failure-Driven Augmentation(GIFT-FAIL)は、ニアミス予測を合成訓練例に変換して、難しい幾何形状に対する頑健性を向上させます。推論時の探索をモデルパラメータに償却することで、GIFT はテスト時スケーリングの恩恵を取り込みつつ、推論計算を 80% 削減します。強力な教師ありベースラインに対して平均IoUを 12% 改善し、追加の人手による注釈や特殊なアーキテクチャを必要とせずに、より複雑なマルチモーダル・システムとも競争力を維持します。

広告