CircuitBuilder: 強化学習による多項式から回路への変換

arXiv cs.LG / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多項式のための効率的な算術回路を発見する問題を、固定された操作回数の範囲内で加算および乗算ゲートから回路を構築するエージェントを含む、単一プレーヤーの強化学習ゲームとして定式化する。
AlphaZero風のトレーニングループを実装し、PPO+MCTSとSoft Actor-Critic (SAC) を比較する。SACは2変数ターゲットでより高い成功を達成し、PPO+MCTSは3変数へとスケールする。
結果は、多項式回路合成がMLにおける自己改善型探索ポリシーを研究するための、コンパクトで検証可能な設定を提供することを示唆している。
本研究は、現代的なRL手法を記号回路合成へ具体的に適用した実例を示し、MLと計算代数との潜在的なクロスオーバーを浮き彫りにしている。

要旨: 自動証明生成とヴァリアントの VP 対 VNP 予想に動機づけられ、私たちは加算ゲートと乗算ゲートを用いて多項式を計算するための効率的な算術回路を見つける問題を研究します。私たちはこの問題を、固定回数の操作内で回路を構築しようとする RLエージェントを一人用ゲームとして定式化します。AlphaZero風の訓練ループを実装し、2つのアプローチを比較します：モンテカルロ木探索付き近接方策最適化（PPO+MCTS）とソフトアクター・クリティック（SAC）。SACは2変数ターゲットで最高の成功率を達成しますが、PPO+MCTSは3変数へスケールし、より難しいインスタンスで着実な改善を示します。これらの結果は、多項式回路の合成が自己改善型探索ポリシーを研究するための、コンパクトで検証可能な設定であることを示唆しています。」}{} 2変数ターゲットで最高の成功率を達成しますが、PPO+MCTSは3変数へスケールし、より難しいインスタンスで着実な改善を示します。これらの結果は、多項式回路の合成が自己改善型探索ポリシーを研究するための、コンパクトで検証可能な設定であることを示唆しています。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

CircuitBuilder: 強化学習による多項式から回路への変換

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer