要旨: コンピュータ利用エージェントは、幅広いデジタル経済活動を支援する可能性を秘めています。しかし、現在の研究は、基本的なEC(電子商取引)やOS設定のような、経済的価値が限られた少数のソフトウェアに対する短い地平(ホライズン)のタスクに、ほとんどが集中してきました。主要な理由は、複雑なソフトウェアのための環境を作るには多大な時間と人手が必要であり、そのためスケールしないからです。これに対処するために、任意のソフトウェアをインタラクティブなコンピュータ利用環境へ変換する枠組みである「Gym-Anything」を提案します。環境作成そのものをマルチエージェント課題として捉えます。すなわち、コーディングエージェントがセットアップスクリプトを書き、現実世界のデータをダウンロードし、ソフトウェアを設定して、正しくセットアップされたことの証拠を生成します。独立した監査エージェントが、その証拠を品質チェックリストに照らして検証し、環境セットアップの妥当性を確認します。米国のGDPデータに基づく、経済的に価値のある職業の分類(タクソノミー)を用いて、このパイプラインを、職業領域を幅広くカバーする200のソフトウェアアプリケーションに適用します。その結果、CUA-World が得られます。CUA-World は、医療科学や天文学から工学・エンタープライズシステムに至るまでの領域を横断し、各タスクが現実的なデータで構成されるとともに、学習・テストの分割(train/test splits)を備えた、10K超の長期(ロングホライズン)タスクの集合です。さらに CUA-World-Long も含まれており、しばしば500ステップを超えるようなタスクを必要とする、難易度の高い長期ホライズンのベンチマークで、既存のベンチマークを大きく上回っています。学習分割から成功した軌跡を蒸留し、2Bの視覚言語モデルは、そのサイズの2 imesの性能を持つモデルを上回ります。また、テスト時にも同じ監査原理を適用します。別個のVLMが完了した軌跡をレビューし、残っていること(不足している点)へのフィードバックを提供することで、CUA-World-Long 上の Gemini-3-Flash を11.5%から14.0%へ改善します。将来の、現実的なコンピュータ利用エージェントに関する研究を促進するために、私たちはすべてのコード、インフラストラクチャ、ベンチマークデータを公開します。
Gym-Anything:あらゆるソフトウェアをエージェント環境に変える
arXiv cs.LG / 2026/4/8
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- Gym-Anythingは、ほぼ任意のソフトウェアを、インタラクティブなコンピュータ利用「エージェント環境」へと変換するフレームワークとして提示されており、手作業による環境作成のスケーラビリティ上のボトルネックを解消することを目指している。
- 本論文では、マルチエージェントによる環境セットアップのパイプラインを提案する。コーディングエージェントがセットアップスクリプトを生成し、実世界データを用いて対象ソフトウェアをインストール/設定し、証拠(エビデンス)を作成する。一方で独立した監査(オーディット)エージェントが、チェックリストに基づいてセットアップの品質を検証する。
- 著者らは、米国のGDPに結び付けた職業タクソノミーを用いて、200のソフトウェアアプリケーションからCUA-Worldを構築し、現実的なデータを伴う10K+の長期(ロングホライゾン)タスクと、医学・天文学・工学・エンタープライズシステムといったドメイン横断の学習/評価(train/test)分割を得ている。
- さらに、しばしば500ステップを超えるタスクを含むより厳しいベンチマークとしてCUA-World-Longを導入し、成功した軌跡を2Bの視覚言語モデル(vision-language model)へ蒸留することで性能が向上することを示している。また、監査時のレビューを加えることで、Gemini-3-Flashの結果が11.5%から14.0%へさらに改善することを示している。
- すべてのコード、インフラ、ベンチマークデータを公開し、現実的な長期のコンピュータ利用エージェントに関する今後の研究を支援する。




