OS-SPEAR：OSエージェントの安全性・性能・効率・堅牢性を分析するためのツールキット

arXiv cs.CL / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、複雑なGUI上で動作するOSエージェントを対象に、安全性・性能・効率・堅牢性の観点から厳密に評価するためのツールキットOS-SPEARを提案しています。
既存ベンチマークの課題を踏まえ、危険シナリオを幅広く含む安全性サブセット、軌跡の価値推定と層別サンプリングに基づく性能サブセット、遅延とトークン消費による効率指標、さらに視覚・テキスト双方へのクロスモーダル擾乱による堅牢性サブセットを整備しています。
人間が読みやすい診断レポートを自動生成する分析ツールも提供し、エージェントの挙動や失敗モードの解釈を支援します。
OS-SPEARを用いて22の人気OSエージェントを評価した結果、効率と安全性・堅牢性の間に起きやすいトレードオフ、汎用モデルよりも特化型エージェントの性能優位、モダリティごとに異なる堅牢性の脆弱性が明らかになりました。
データセットとコードを公開し、多次元の標準化されたランキングと、信頼性・効率性の高い次世代OSエージェント開発を後押しする基盤を提供します。

概要: マルチモーダル大規模言語モデル（MLLMs）の進化は、テキスト生成から能動的な行動実行へと焦点を移してきました。特に、複雑なGUIをナビゲートするOSエージェントを通じて顕著です。しかし、これらのエージェントを信頼できる日常のパートナーへと移行するには、安全性・効率性・マルチモーダル頑健性に関する厳密な評価が不足していることが障壁となっています。現在のベンチマークは、安全に関するシナリオが狭いこと、軌跡ラベル付けがノイズを含むこと、および頑健性指標が限られていることに起因する課題を抱えています。このギャップを埋めるために、我々はOS-SPEARを提案します。これは、OSエージェントを4つの次元――安全性（Safety）、性能（Performance）、効率（Efficiency）、頑健性（Robustness）――にわたって体系的に分析するための包括的なツールキットです。OS-SPEARは4つの専門的サブセットを導入します： (1) 環境および人間に起因する多様な危険を含むS（afe ty）サブセット；(2) 軌跡価値推定と階層化サンプリングによってキュレーションされたP（erformance）サブセット；(3) 時間的なレイテンシとトークン消費という2つの観点から性能を定量化するE（fficiency）サブセット；(4) 視覚入力とテキスト入力の両方に対してクロスモーダル擾乱を適用するR（obustness）サブセット。さらに、人間が読める診断レポートを生成するための自動分析ツールも提供します。OS-SPEARを用いて、22の人気OSエージェントに対して大規模な評価を実施しました。我々の実証結果は、現在の状況に関する重要な洞察を明らかにしています。とりわけ、効率と安全性または頑健性の間に広く見られるトレードオフ、汎用モデルよりも専門特化エージェントのほうが高い性能を示すこと、ならびにモダリティごとに異なる頑健性の脆弱性が存在することです。多次元のランキングと標準化された評価枠組みを提供することで、OS-SPEARは、信頼でき効率的な次世代OSエージェントを開発するための基盤となるリソースを提供します。データセットとコードは https://github.com/Wuzheng02/OS-SPEAR で公開されています。

Claude検索機能の使い方は？ChatGPTとの違いや精度を徹底解説

note

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

日経XTECH

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

GIGAZINE

Promptflow、Prompty、OpenAIを使ってトレーサブルで評価可能なLLMワークフローを構築する方法

MarkTechPost

ADAMオプティマイザーの収束証明の改良

Dev.to

OS-SPEAR：OSエージェントの安全性・性能・効率・堅牢性を分析するためのツールキット

要点

関連記事

Claude検索機能の使い方は？ChatGPTとの違いや精度を徹底解説

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

Promptflow、Prompty、OpenAIを使ってトレーサブルで評価可能なLLMワークフローを構築する方法

ADAMオプティマイザーの収束証明の改良

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Claude検索機能の使い方は？ChatGPTとの違いや精度を徹底解説

富岳NEXT「世界一狙わず」 理研・富士通・NVIDIA、AI時代の使われる計算機へ

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

Promptflow、Prompty、OpenAIを使ってトレーサブルで評価可能なLLMワークフローを構築する方法

ADAMオプティマイザーの収束証明の改良

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ