CONDESION-BENCH：合成的な行動空間における大規模言語モデルの条件付き意思決定

arXiv cs.CL / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、行動が固定された候補リストではなく合成的な構造を持つ場合に、大規模言語モデルが条件付き意思決定をどれほどうまく行えるかを測定するためのCONDESION-BENCHを提案する。
行動を意思決定変数への割り当てとしてモデル化し、複数のレベル（変数、文脈、割り当て）で明示的な実行可能性条件を課すことで、現実の制約をより適切に反映する。
ベンチマークではオラクルに基づく評価を用い、意思決定の質と指定された条件への適合の両方を判定し、意思決定支援の場面におけるLLMのより厳密な評価を目指す。
従来の意思決定ベンチマークが有限の行動集合を前提とし、行動の妥当性に対する明示的な制約を無視しているという限界に対処する。

要旨: 大規模言語モデルは、その文脈理解と推論能力により、重大な意思決定が求められる領域における意思決定支援ツールとして広く検討されてきた。しかし、既存の意思決定ベンチマークは、2つの単純化の仮定に依存している。すなわち、行動は有限のあらかじめ定義された候補集合から選択され、行動の実行可能性を制限する明示的な条件が意思決定プロセスに組み込まれていない、という仮定である。これらの仮定は、現実世界の行動の合成（組み合わせ）構造や、その妥当性を制約する明示的な条件を捉えられていない。こうした制限に対処するため、我々は合成的な行動空間における条件付き意思決定を評価するためのベンチマークCONDESION-BENCHを導入する。CONDESION-BENCHでは、行動を意思決定変数への割当として定義し、変数レベル、文脈レベル、割当レベルにおける明示的な条件によって制限する。さらに、意思決定の質と条件遵守の双方についてオラクルベースの評価を用いることで、意思決定支援ツールとしてのLLMをより厳密に評価することを可能にする。

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

日経XTECH

注目集める「AIエージェント」、一問一答型から自律的なシステムに

日経XTECH

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

日経XTECH

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

日経XTECH

CONDESION-BENCH：合成的な行動空間における大規模言語モデルの条件付き意思決定

要点

関連記事

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

注目集める「AIエージェント」、一問一答型から自律的なシステムに

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」 など、注目記事を音声化

注目集める「AIエージェント」、一問一答型から自律的なシステムに

新モデル「Claude Mythos」の衝撃 数千の脆弱性を発見、一般公開せず

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず