要旨: 高忠実度な合成データの生成は、現代の機械学習における礎である。しかし、大規模言語モデル(LLM)は、構造化された生成を課されると、しばしば幻覚、論理的不整合、およびモード崩壊に悩まされる。プロンプトや検索拡張生成といった既存の手法では、言語的な表現力と、有効性およびカバレッジに関する形式的保証を両立させるための仕組みが欠けている。これに対処するために、本研究ではCircuitSynthを提案する。これは、意味推論と表層的な実現を分離する新しいニューロ・記号(neuro-symbolic)フレームワークである。CircuitSynthは、教師となるLLMの推論能力を、確率的センテンシャル・デシジョン図(PSDD)へと蒸留することで、構造的に「難しい」論理制約を強制する、扱いやすい意味的事前(semantic prior)を構築する。さらに、ソフトな分布目標を厳密に満たすための凸最適化メカニズムも導入する。多様なベンチマークにわたる実験的評価により、CircuitSynthは、制約のないベースラインが失敗する(12.4%)ような複雑な論理パズルにおいても100%のスキーマ妥当性を達成し、さらに希少な組合せのカバレッジにおいて最先端手法を大幅に上回ることが示される。
CircuitSynth: 信頼性の高い合成データ生成
arXiv cs.CL / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- CircuitSynth は、幻覚、論理的不整合、モード崩壊といった一般的なLLMの失敗を回避しつつ、高忠実度な構造化合成データを生成するためのニューラル・シンボリックな枠組みとして導入されます。
- この手法は、意味的推論と表層的な実現(サーフェス・リアライゼーション)を分離し、Teacher LLM を Probabilistic Sentential Decision Diagram(PSDD)へ蒸留することで、強い論理制約を課す意味的な事前分布(semantic prior)を作成します。
- CircuitSynth は、生成時における硬い妥当性要件と、よりソフトな分布目標の両方を満たすために、凸最適化メカニズムを用います。
- 複数のベンチマークでの実験では、複雑な論理パズルに対して 100% のスキーマ妥当性を達成したと報告されており、制約なしのベースライン(12.4% まで)を上回ります。また、既存の最先端手法よりも稀な組み合わせのカバレッジを改善します。
