要旨: 大規模言語モデルは、その文脈理解と推論能力により、重大な意思決定が求められる領域における意思決定支援ツールとして広く検討されてきた。しかし、既存の意思決定ベンチマークは、2つの単純化の仮定に依存している。すなわち、行動は有限のあらかじめ定義された候補集合から選択され、行動の実行可能性を制限する明示的な条件が意思決定プロセスに組み込まれていない、という仮定である。これらの仮定は、現実世界の行動の合成(組み合わせ)構造や、その妥当性を制約する明示的な条件を捉えられていない。こうした制限に対処するため、我々は合成的な行動空間における条件付き意思決定を評価するためのベンチマークCONDESION-BENCHを導入する。CONDESION-BENCHでは、行動を意思決定変数への割当として定義し、変数レベル、文脈レベル、割当レベルにおける明示的な条件によって制限する。さらに、意思決定の質と条件遵守の双方についてオラクルベースの評価を用いることで、意思決定支援ツールとしてのLLMをより厳密に評価することを可能にする。
CONDESION-BENCH:合成的な行動空間における大規模言語モデルの条件付き意思決定
arXiv cs.CL / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、行動が固定された候補リストではなく合成的な構造を持つ場合に、大規模言語モデルが条件付き意思決定をどれほどうまく行えるかを測定するためのCONDESION-BENCHを提案する。
- 行動を意思決定変数への割り当てとしてモデル化し、複数のレベル(変数、文脈、割り当て)で明示的な実行可能性条件を課すことで、現実の制約をより適切に反映する。
- ベンチマークではオラクルに基づく評価を用い、意思決定の質と指定された条件への適合の両方を判定し、意思決定支援の場面におけるLLMのより厳密な評価を目指す。
- 従来の意思決定ベンチマークが有限の行動集合を前提とし、行動の妥当性に対する明示的な制約を無視しているという限界に対処する。
