要旨: マルチモーダル大規模言語モデル(MLLM)により駆動される自律型グラフィカルユーザインタフェース(GUI)エージェントは、エンドユーザの端末上でデジタル自動化を可能にする。パラメータとデータの双方をスケールすることで大きな効果が得られてきた一方で、先進的手法は依然として、資源制約のある端末への導入コストが過大となるという問題を抱えている。複雑な現実環境のシナリオに直面すると、軽量なGUIエージェントは、能力の制限と、エンドツーエンドのエピソード学習におけるタスクのスケーラビリティの低さによってボトルネック化し、適応がマルチエージェントシステム(MAS)に対して妨げられる。さらに、複数のスキル固有のエキスパートを訓練することはコストがかかり続ける。このコストとスケーラビリティのジレンマにおいて、効果的なトレードオフを見出し、軽量なMLLMが現実的なGUIワークフローに参加できるようにすることは可能だろうか? これらの課題に対処するため、我々はLAMOフレームワークを提案する。LAMOは軽量MLLMにGUI固有の知識とタスクのスケーラビリティを付与し、多ロールのオーケストレーションによってGUI自動化の能力の境界を拡張できるようにする。LAMOは、役割指向のデータ合成と、二段階の学習レシピを組み合わせる:(i)知識の蒸留と視覚知覚の強化のために、Perplexity-Weighted Cross-Entropy最適化による教師あり微調整、そして(ii)役割指向の協調的探索のための強化学習である。LAMOによって、タスクスケーラブルなネイティブGUIエージェントLAMO-3Bを開発し、単一実行とMASスタイルのオーケストレーションの両方をサポートする。高度なプランナーをプラグアンドプレイのポリシー実行器として組み合わせた場合、LAMO-3Bはプランナーの進歩を継続的に活用でき、性能の上限をより高くできる。広範な静的およびオンライン評価により、我々の設計の有効性が検証される。
マルチロール・オーケストレーションによるスケーラブルな軽量GUIエージェントへの取り組み
arXiv cs.AI / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、リソース制約のあるデバイス上で現実世界の複雑なタスクに対応できるほどスケーラブルな軽量マルチモーダルLLMベースGUIエージェントを実現するための枠組みLAMOを提案する。
- LAMOは、役割指向のデータ合成と二段階の学習アプローチによりGUI能力を向上させる。具体的には、蒸留と視覚認識の強化のためにPerplexity-Weighted Cross-Entropyを用いた教師あり微調整を行い、その後、協調的な役割探索のための強化学習を実施する。
- 得られたモデルLAMO-3Bは、タスクのスケーラビリティを目的としており、単一のモノリシック実行と、マルチエージェントシステム(MAS)型のオーケストレーションの両方に対応するよう設計されている。
- 外部プランナと統合し、プラグアンドプレイの方策実行器として組み込むことで、LAMO-3Bはプランナの改善を継続的に活用し、到達可能な性能の上限を引き上げられる。
- 著者らは、静的評価およびオンライン評価の広範な実験を通じて、枠組みと学習戦略の有効性を示している。
