OS-Themis: 汎用GUI報酬のための拡張性のあるクリティックフレームワーク

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

OS-Themis は、GUIタスクの軌道を検証可能な節目に分解して報酬の質を向上させる、拡張性のあるマルチエージェントクリティックフレームワークである。
最終判断に至る前に証拠連鎖を審査する検証機構を採用し、単一の判断者への依存を減らしている。
本研究は、OS-Themis の下での評価を容易にする GUI 成果報酬のクロスプラットフォームベンチマーク OmniGUIRewardBench (OGRBench) を導入する。
AndroidWorld の実験結果は、OS-Themis がオンライン RL トレーニングを約10.3% 改善し、自己学習ループ内の軌跡検証で約6.9% の向上をもたらすことを示しており、GUI エージェントの進化を促進する可能性を示唆している。

概要: 強化学習（RL）は、確率的な環境における GUI エージェントの頑健性を向上させる潜在能力を持っていますが、訓練は報酬関数の品質に大きく依存します。既存の報酬アプローチは、スケーラビリティと性能の両立を達成するのに苦戦しています。これに対処するため、OS-Themis という、スケーラブルで高精度なマルチエージェント・クリティック・フレームワークを提案します。単一の審判者とは異なり、OS-Themis は軌跡を検証可能なマイルストーンに分解し、意思決定のための重要な証拠を分離し、最終判断を下す前に証拠チェーンを厳密に監査するレビュー機構を採用します。評価を容易にするため、OmniGUIRewardBench（OGRBench）という、 GUI アウトカム報酬に関する総合的なクロスプラットフォームベンチマークをさらに導入します。OGRBench では、評価対象モデルはすべて OS-Themis の下で最高の性能を発揮します。AndroidWorld での広範な実験は、OS-Themis がオンライン RL トレーニングを支援する際に 10.3% の改善をもたらし、自己学習ループにおける軌跡の検証とフィルタリングに使用した場合には 6.9% の利得をもたらすことを示しており、エージェントの進化を促す可能性を浮き彫りにしています。