OccuBench:言語ワールドモデルを介して現実の専門職タスクでAIエージェントを評価する

arXiv cs.CL / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • OccuBenchを提案し、現行ベンチマークが不足していた「多様な職業領域の現実的な専門タスク」を対象に、10業界カテゴリ・65専門領域・計100シナリオをカバーする評価ベンチを構築した。
  • Language World Models(LWM)により、LLMがツール応答を生成して領域固有の環境をシミュレートし、保証された解けやすさ・調整済み難易度・文書に根差した多様性を備える評価インスタンスを自動生成する。
  • 評価は(1)職業ドメイン横断でのタスク達成と、(2)故障注入下での環境頑健性の2軸で行い、明示的エラーよりも暗黙的なデータ劣化(欠損・切り詰め等)の方が難しいことを示した。
  • 15のフロンティアモデルを8系統で比較した結果、単一モデルが全産業で支配的になるわけではなく、モデル規模の大きさ・世代の新しさ・推論努力量の増加が一貫して性能向上に寄与する。
  • 強力なエージェントは必ずしも強力な環境シミュレータにはならず、LWMベース評価の信頼性にはシミュレータ品質が決定的だと結論づけた。

要旨: AIエージェントは、数百の職業領域にわたって専門的な業務を遂行することが期待されています(救急外来のトリアージから原子炉の安全監視、税関での輸入手続きの処理まで)。しかし、既存のベンチマークでは、公的な環境が存在するごく少数の領域でしかエージェントを評価できません。私たちは、言語ワールドモデル(LWM)によって実現される、OccuBenchというベンチマークを導入します。これは、LLM駆動のツール応答生成により領域固有の環境をシミュレートし、10の産業カテゴリと65の専門領域にまたがって、現実の専門タスクシナリオ100件をカバーします。複数エージェントによる合成パイプラインが、解けることが保証された評価インスタンスを自動生成し、難易度は調整され、文書に基づく多様性が保証されます。OccuBenchは、2つの補完的な次元に沿ってエージェントを評価します。すなわち、専門領域をまたぐタスク完了と、制御されたフォールト注入下での環境ロバスト性(明示的なエラー、暗黙的なデータ劣化、混合フォールト)です。私たちは、8つのモデルファミリにまたがる15の最先端モデルを評価し、次のことを見出しました。 (1) 単一のモデルがすべての産業を支配するわけではありません。各産業には異なる職務能力プロファイルがあるためです。 (2) 暗黙的フォールト(切り詰められたデータ、欠けたフィールド)は、明示的エラー(タイムアウト、500系)や混合フォールトよりも難しいです。これは、エラーを示す信号が表立っておらず、エージェントがデータ劣化を独自に検知する必要があるためです。 (3) より大きなモデル、新しい世代、そして高い推論努力はいずれも、パフォーマンスを一貫して改善します。GPT-5.2は、最小の推論努力から最大の推論努力へ移行することで27.5ポイント向上します。 (4) 強力なエージェントが、必ずしも強力な環境シミュレータであるとは限りません。LWMベースの評価の信頼性には、シミュレータ品質が重要です。OccuBenchは、専門職業タスクにおけるAIエージェントの産業横断に関する最初の体系的評価を提供します。