コンピュータ利用エージェントの信頼性について

arXiv cs.AI / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • コンピュータ利用エージェントはWebナビゲーションやデスクトップ/ソフトウェア操作などの現実タスクで高い性能を示せる一方、同じタスクでも繰り返し実行すると失敗することがあります。
  • 本論文は、実行中の確率的な揺らぎ、タスク仕様の曖昧さ、エージェント行動の実行間ばらつきという3つの観点から、この不確実性の要因を分析します。
  • OSWorldで同一タスクを繰り返し実行し、設定間のタスクレベルの変化を捉える統計的検定と組み合わせて分析した結果、信頼性はタスク仕様と実行間の行動変動の両方に依存することが示されます。
  • この知見を踏まえ、同一タスクの繰り返し評価を行うこと、相互作用によってタスクの曖昧さを解消できるようにすること、実行間でも安定した戦略を優先することが提案されます。

要旨: コンピュータ利用エージェントは、Webナビゲーション、デスクトップの自動化、ソフトウェアとのインタラクションといった現実世界のタスクにおいて急速に性能が向上し、場合によっては人間の性能を上回っています。それでも、タスクとモデルが変わらないとしても、一度成功したエージェントが、同じタスクを再実行すると失敗することがあります。これは根本的な問いを投げかけます。すなわち、エージェントがあるタスクで一度成功できるなら、何がそれを確実に再現できない原因になっているのでしょうか。本研究では、コンピュータ利用エージェントにおける信頼性の低さの要因を、実行中の確率性、タスク仕様における曖昧さ、エージェントの行動のばらつきという3つの要因を通じて調査します。OSWorldにおいて、同一タスクの反復実行と、設定間のタスクレベルの変化を捉える対応する統計的検定を用いて、これらの要因を分析します。その結果、信頼性は、タスクがどのように仕様化されているか、およびエージェントの行動が実行間でどのように変動するかの両方に依存することが示されました。本発見は、反復実行のもとでエージェントを評価する必要性、インタラクションを通じてタスクの曖昧さを解消できるようにする必要性、そして実行をまたいでも安定したままでいられる戦略を優先すべきであることを示唆しています。