Post-Training Multimodal Large Language Models (MLLMs) によってインタラクティブなエージェントを構築することは、コンピュータ操作、Webナビゲーション、ロボティクスなどの幅広い領域で有望である。こうしたポストトレーニングをスケールさせる上での主要な課題は、多様で実行可能かつ検証可能なタスクを備えた、高品質な下流のエージェント向けタスクデータセットが欠けていることである。タスク生成の既存手法は、人手によるアノテーションに大きく依存するか、あるいは限定的な下流環境情報しか与えずに MLLM にプロンプトすることで成り立っている。前者はコストがかかり、後者はスケーラブルでないという問題があり、その結果、カバー範囲が限られたタスクしか得られない。これを解決するために、本稿では AutoPlay を提案する…
探索によるエージェントのための合成タスク生成のスケーリング
Apple Machine Learning Journal / 2026/3/24
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、探索を用いて有用なタスクの変種を発見することで、エージェント訓練向けの合成タスク生成をスケールさせる手法を提案する。
- 手作業でキュレーションされたベンチマークや高コストな人間データのみに依存せずに、エージェントが多様な学習シグナルを得られる方法の改善に焦点を当てている。
- 本アプローチは、タスク空間のより効率的なカバーを可能にし、それによってエージェントの汎化性能を強化できるものとして位置づけられている。
- 2026年3月に発表された研究貢献であり、ICLRに関連づけられている。
この記事の続きは原文サイトでお読みいただけます。
原文を読む →