要旨: Clawスタイルの環境は、ローカルファイル、ツール、および永続的な作業空間状態にまたがる多段階のワークフローをサポートします。しかし、このような環境をめぐる大規模な開発は、体系的な枠組みがないこと、とりわけ検証可能な学習データを合成し、それをエージェント学習および診断評価と統合するための枠組みがないことによって制約されています。この課題に対処するため、Clawスタイルの個人エージェント開発の全ライフサイクルを支えるスケーラブルな枠組みであるClawGymを提案します。具体的には、ClawGym-SynDataを構築します。これは、パーソナに基づく意図と、スキルに裏付けられた操作から合成した13.5K件の多様なタスク(フィルタリング済み)を、現実的なモック作業空間およびハイブリッドな検証メカニズムと組にしたデータセットです。次に、ブラックボックスのロールアウト軌跡に対する教師あり微調整を通じて、Clawスタイルの能力あるモデル群(ClawGym-Agentsと呼ぶ)を学習させ、さらに、軽量なパイプラインによってタスクごとのサンドボックス間でロールアウトを並列化することで強化学習を探究します。信頼できる評価を支えるため、さらに自動フィルタリングと人手・LLMによるレビューで調整した200件のインスタンスからなるベンチマーク、ClawGym-Benchも構築します。関連リソースはまもなく https://github.com/ClawGym で公開されます。
ClawGym:効果的なクロー(Claw)エージェントを構築するためのスケーラブルなフレームワーク
arXiv cs.CL / 2026/4/30
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文では、ローカルファイル、ツール、永続的なワークスペース状態にまたがって作業する「Clawスタイル」のパーソナルエージェントを、開発ライフサイクル全体で支援するスケーラブルなフレームワーク「ClawGym」を提案しています。
- 「ClawGym-SynData」として、ペルソナに基づく意図とスキルに基づく操作から生成した13.5K件のフィルタ済みタスクを、現実的なモック・ワークスペースとハイブリッド検証付きで提供します。
- このデータを用いて、ブラックボックスのロールアウト軌跡に対する教師あり微調整により「ClawGym-Agents」を学習し、さらに軽量な強化学習パイプライン(タスクごとのサンドボックスでの並列ロールアウト)も検討します。
- 信頼できる評価のために、自動フィルタリングに加えて人手とLLMレビューで校正した200件のベンチマーク「ClawGym-Bench」も構築しています。
- 著者は、訓練データの合成と診断的評価の再現性を高めることを目指し、リソースをGitHubで近日公開する予定です。



