OccuBench：言語ワールドモデルを介して現実の専門職タスクでAIエージェントを評価する

arXiv cs.CL / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

OccuBenchを提案し、現行ベンチマークが不足していた「多様な職業領域の現実的な専門タスク」を対象に、10業界カテゴリ・65専門領域・計100シナリオをカバーする評価ベンチを構築した。
Language World Models（LWM）により、LLMがツール応答を生成して領域固有の環境をシミュレートし、保証された解けやすさ・調整済み難易度・文書に根差した多様性を備える評価インスタンスを自動生成する。
評価は(1)職業ドメイン横断でのタスク達成と、(2)故障注入下での環境頑健性の2軸で行い、明示的エラーよりも暗黙的なデータ劣化（欠損・切り詰め等）の方が難しいことを示した。
15のフロンティアモデルを8系統で比較した結果、単一モデルが全産業で支配的になるわけではなく、モデル規模の大きさ・世代の新しさ・推論努力量の増加が一貫して性能向上に寄与する。
強力なエージェントは必ずしも強力な環境シミュレータにはならず、LWMベース評価の信頼性にはシミュレータ品質が決定的だと結論づけた。

要旨: AIエージェントは、数百の職業領域にわたって専門的な業務を遂行することが期待されています（救急外来のトリアージから原子炉の安全監視、税関での輸入手続きの処理まで）。しかし、既存のベンチマークでは、公的な環境が存在するごく少数の領域でしかエージェントを評価できません。私たちは、言語ワールドモデル（LWM）によって実現される、OccuBenchというベンチマークを導入します。これは、LLM駆動のツール応答生成により領域固有の環境をシミュレートし、10の産業カテゴリと65の専門領域にまたがって、現実の専門タスクシナリオ100件をカバーします。複数エージェントによる合成パイプラインが、解けることが保証された評価インスタンスを自動生成し、難易度は調整され、文書に基づく多様性が保証されます。OccuBenchは、2つの補完的な次元に沿ってエージェントを評価します。すなわち、専門領域をまたぐタスク完了と、制御されたフォールト注入下での環境ロバスト性（明示的なエラー、暗黙的なデータ劣化、混合フォールト）です。私たちは、8つのモデルファミリにまたがる15の最先端モデルを評価し、次のことを見出しました。 (1) 単一のモデルがすべての産業を支配するわけではありません。各産業には異なる職務能力プロファイルがあるためです。 (2) 暗黙的フォールト（切り詰められたデータ、欠けたフィールド）は、明示的エラー（タイムアウト、500系）や混合フォールトよりも難しいです。これは、エラーを示す信号が表立っておらず、エージェントがデータ劣化を独自に検知する必要があるためです。 (3) より大きなモデル、新しい世代、そして高い推論努力はいずれも、パフォーマンスを一貫して改善します。GPT-5.2は、最小の推論努力から最大の推論努力へ移行することで27.5ポイント向上します。 (4) 強力なエージェントが、必ずしも強力な環境シミュレータであるとは限りません。LWMベースの評価の信頼性には、シミュレータ品質が重要です。OccuBenchは、専門職業タスクにおけるAIエージェントの産業横断に関する最初の体系的評価を提供します。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/14Dailyインサイトを見る →

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

日経XTECH

Microsoft、より安価で高速なAI画像モデル「MAI-Image-2-Efficient」を発表

VentureBeat

AIスクールバス・カメラ企業が全米を取り締まり切符で覆う

Dev.to

OpenClawでのGPT-5.3およびGPT-5.4：セットアップと設定...

Dev.to

OccuBench：言語ワールドモデルを介して現実の専門職タスクでAIエージェントを評価する

要点

💡 この記事が使われたインサイト

関連記事

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

Microsoft、より安価で高速なAI画像モデル「MAI-Image-2-Efficient」を発表

AIスクールバス・カメラ企業が全米を取り締まり切符で覆う

OpenClawでのGPT-5.3およびGPT-5.4：セットアップと設定...

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

Microsoft、より安価で高速なAI画像モデル「MAI-Image-2-Efficient」を発表

AIスクールバス・カメラ企業が全米を取り締まり切符で覆う

OpenClawでのGPT-5.3およびGPT-5.4：セットアップと設定...

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し