要旨: 大規模言語モデルにおける、未指示(unprompted)問題認識のためのベンチマークであるKWBench(Knowledge Work Bench)の最初のバージョンを紹介します。すなわち、LLMは解こうとする前に、専門的な状況を識別できるのでしょうか。既存の最先端ベンチマークは飽和しており、これまでの知識作業(knowledge-work)に関する評価の多くは、仕様に対する抽出またはタスク完了へと還元されてきました。KWBenchは、その一段手前、すなわち、生の入力のみから状況を支配する構造を認識することを狙います。
ベンチマークには、買収、契約交渉、臨床薬学、組織の政治、詐欺分析、インセンティブ設計に携わる実務家から集めた223のタスクが含まれています。各タスクは、形式的なゲーム理論的パターン(プリンシパル=エージェントの対立、シグナリング、メカニズム設計の失敗、戦略的な省略、連合(コアリション)的ダイナミクス、戦略的相互依存)を符号化し、さらに、専門家が状況を読み取った結果と、想定される失敗モードを記録した構造化された正解データが付随します。モデルには、生データと、問題タイプを示す情報のないタスク・プロンプトが与えられます。採点は、必須の論理積チェック(conjunctive check)によってゲートされた3段階のルーブリックです。必須基準には、予測される誤った進み道が符号化されています。
16のモデルを評価します。最良のモデルはタスクの27.9%で合格します。上位2モデルは、それぞれの合格のうち、わずか31.7%で一致します。上位8の間では、44のタスクがちょうど1つのモデルによって解かれています。上位8のモデル間でのルーティングにより、ベンチマークの50.7%がカバーされ、最良の単一モデルのほぼ2倍となります。合格した場合に限ると、品質スコアはモデル間で収束します(およそ83%)。ただし無条件のスコアは収束しません。――同じモデルが、尋ねられると関連するゲーム理論的概念を正しく言語化できるのに、未指示のままではそれを適用できないのです。私たちはKWBenchを公開し、知識作業における最先端モデルの評価方法を変えることを目指します。すなわち、問題がモデルのために枠組み付けされた後にどれだけうまく実行できるかだけでなく、状況だけから正しい問題を認識できるかどうかに基づいて採点するのです。
KWBench:知識業務における未指示の問題認識を測定する
arXiv cs.AI / 2026/4/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMが問題タイプを明示されずに生の入力から専門的な状況を認識し、その支配的な構造を理解できるかを測る新しいベンチマーク「KWBench(Knowledge Work Bench)」を提案しています。
- これまでの知識業務の評価が、仕様に基づく抽出やタスク完了に主に焦点を当てていたのに対し、KWBenchは「未指示の問題認識」という段階そのものを対象にしており、ゲーム理論的なパターンと専門家が記録した失敗モードを用いています。
- KWBenchには、買収、契約交渉、臨床薬学、組織政治、不正分析、インセンティブ設計などの領域から実務家が出した223タスクが含まれ、モデルは生データとタスク用のプロンプトのみを与えられます。
- 16モデルの評価では全体の通過率が低く(最高モデルで27.9%)、上位モデル同士で通過が一致する割合も小さく、さらに「正しいゲーム理論の概念を言語化できても未指示では適用できない」傾向が示されています。
- 著者らは、知識業務におけるフロンティアLLMの評価方法を変えるためにKWBenchを公開し、状況から正しい問題を認識できるか(フレーミング後の実行性能だけでなく)を重視してスコアリングするとしています。



